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本 书目 的 在 于 帮助 读者 理解 Hadoop， 并 用 它 解 决 大 数据 问题 。 能 使 用 
人 激动 的 。 对 大 规模 数据 集 进行 

杂 分 析 的 能 力 ， 曾 一 度 被 大 公司 和 政府 机 构 所 垄断 ， 而 现在 通过 人 免费 的 
OS (open source e software, 开源 软件 ) 即 可 获得 这 种 能 力 。 


该 领域 看 上 去 有 些 复杂 ， 并 且 变 化 和 节奏 很 快 ， 所 以 理解 这 方面 的 基本 知识 
让 人 望 而 生 旦 。 这 就 是 本 书 诞生 的 意义 所 在 ， 它 帮助 读者 了 解 什么 是 
Hadoop 是 如 何 工作 的 ， 以 及 如 何 使 用 Hadoop 从 数据 中 提取 有 价值 


除了 解释 Hadoop 的 核心 机 制 ， 本 书 也 会 用 几 章 内 容 来 学 习 其 他 相关 技术 ， 

这 些 技术 要 么 用 到 了 Hadoop， 要 么 需要 与 Hadoop 配 套 使 用 。 我 们 的 目标 

让 读者 不 仅 理解 Hadoop 是 什么 ， 还 要 理解 如 何在 更 宽泛 的 技术 设施 中 
Hadoop ? 


本 书 中 提 到 的 另 一 种 技术 是 云 计算 的 应 用 ， 尤 其 是 AWS (Amazon Web 
Services， 亚 马 逊 网 络 服务 ) 产品 。 本 书 中 ， 我 们 将 展示 如 何 使 用 这 些 服务 
来 承载 Hadoop 工 作 负 载 。 这 就 意味 着 ， 读 者 无 需 购买 任何 物理 硬件 , 就 能 处 
理 大 规模 数据 。 


本 书 内 容 


本 书包 括 3 个 主要 部 分 : 第 1~5 章 讲述 了 Hadoop 的 核心 机 制 及 Hadoop 的 工作 
模式 ; 第 6~7 草 涵盖 了 Hadoop 更 多 可 操作 的 内 容 ; 第 8~11 章 介绍 了 Hadoop 与 
其 他 产品 和 技术 的 组 合 使 用 。 每 章 内 容 具 体 如 下 所 。 


第 1 章 “ 绪 论 ”。 简要 介绍 了 产生 Hadoop 和 云 计 算 的 背景 。 如 今 看 来 ， 这 些 
技术 是 如 此 重要 。 


第 2 章 “ 安 装 并 运行 Hadoop”。 指导 读者 完成 本 地 Hadoop 集 群 的 安装 ， 并 运 
E ns 。 为 了 进行 对 比 ， 在 托管 于 亚马逊 服务 的 Hadoop 上 执行 同 
y F o 


第 3 章 “ 理 解 MapReduce”。 深入 研究 Hadoop 运 行 原理 ， 揭 示 了 MapReduce 
作业 的 执行 方式 ， 并 展示 了 如 何 使 用 Java API 编 写 MapReduce 应 用 程序 。 


第 4 章 * 开 发 MapReduce 程 序 ”。 通过 对 一 个 中 等 规模 数据 集 案 例 的 学 习 研 
究 ， 演 示 如 何 着 手 处 理 和 分 析 新 数据 源 。 


第 5 章 “ 高 级 MapReduce 技 术 ”。 介绍 一 些 更 复杂 的 应 用 MapRedece 解 决 问题 
的 方法 ，Hadoop 似 乎 并 不 直接 适用 于 这 些 问题 。 


第 6 章 “ 故 障 处 理 ”。 详细 检查 Hadoop 备 受 赞誉 的 高 可 用 性 和 容错 能 力 ， 通 
过 强制 结束 进程 和 故意 使 用 错误 数据 等 方式 故意 制造 破坏 ， 以 检验 Hadoop 
在 上 述 情况 下 的 表现 。 


第 7 章 “ 系 统 运行 与 维护 >。 从 更 具 操 作 性 的 角度 讲解 Hadoop， 这 对 于 
Hadoop 集 群 的 管理 人 员 非 常 有 用 。 本 章 在 介绍 一 些 最 佳 做 法 的 同时 ， 也 描 
述 了 如 何 预防 最 糟 料 的 操作 性 灾难 ， 因 此 系统 管理 员 可 以 高 枕 无 忧 了 。 


第 8 章 “Hive: 数据 的 关系 视图 >。 介绍 Apache Hive， 它 允许 使 用 类 似 SQL 
的 语法 对 Hadoop 数 据 进行 查询 。 


第 9 章 “ 与 关系 数据 库 协 同 工 作 ”。 探讨 Hadoop 如 何 与 现 有 数据 库 融 合 ， 特 
别 是 如 何 将 数据 从 一 个 数据 库 移 到 男 一 个 数据 库 。 


第 10 章 “使 用 Flume 收 集 数 据 ?。 介绍 如 何 使 用 Apache Flume 从 多 个 数据 源 收 
集 数据 ， 并 传送 至 Hadoop 这 样 的 目的 地 e 


第 11 章 “展望 未 来 ”。 以 更 广泛 的 Hadoop 生 态 系 统 概述 结束 全 书 ， 重 点 突出 
其 他 产品 和 技术 的 洪 在 价值 。 此 外 ， 还 提供 了 一 些 如 何 参与 Hadoop 社 区 并 
获得 帮助 的 方法 。 


准备 工作 


本 书 每 章 内 容 分 别 介绍 该 章 用 到 的 Hadoop 相 关 软 件 包 。 但 是 ， 无 论 哪 章 内 
容 都 要 用 到 运行 Hadoop 集 群 的 硬件 设施 。 


在 最 简单 的 情况 下 ， 一 台 基 于 Linux 的 主机 可 作为 运行 几乎 全 书 所 有 示例 的 
平台 。 任 何 可 运行 Linux 命 令 行 的 先进 操作 系统 都 可 满足 需求 ， 文 中 假设 读 
者 使 用 的 是 Ubuntu 的 最 新 发 布 版 。 


后 面 几 章 中 的 一 些 例子 确实 需要 在 多 台 机 器 上 运行 ， 所 以 读者 需要 拥有 至 
少 4 台 主 机 的 访问 权限 。 虚 拟 机 也 是 可 以 的 。 虽 然 对 于 产品 来 讲 ， 它 们 并 非 


理想 选择 ， 但 完全 能 够 满足 学 习 和 研究 的 需要 。 


本 书 中 ， 我 们 还 将 研究 AWS， 读 者 可 以 在 EC2 实 例 上 运行 所 有 示例 。 本 书 
中 ， 我 们 将 更 多 地 着 眼 于 AWS 针 对 Hadoop 的 具体 用 途 。 任何 人 都 可 以 使 用 
AWS 服 务 ， 但 需要 一 张 信 用 卡 进行 注册 ! 


目标 读者 


我 们 认为 ， 本 书 读者 想 要 学 习 更 多 关于 Hadoop 的 实践 知识 。 本 书 的 主要 受 
众 是 ， 有 软件 开发 经 验 却 没有 接触 过 Hadoop 或 类 似 大 数据 技术 的 人 员 。 


对 于 那些 想 知道 如 何 编写 MapReduce 应 用 的 开发 者 ， 假 设 他 们 能 轻松 地 编写 
Java 程 序 并 熟悉 Unix 命 令 行 接口 。 本 书 还 包含 几 个 Ruby 程 序 示例 ， 但 这 些 
通常 只 是 说 明 语 言 的 独立 性 ， 并 不 要 求 读者 成 为 一 位 Ruby 专 家 。 


对 于 染 构 师 和 系统 管理 员 而 言 ， 本 书 也 具有 重大 价值 。 它 解释 了 Hadoop 的 
工作 原理 ，Hadoop 在 更 广阔 的 系统 架构 中 所 处 的 位 置 ， 以 及 如 何 管理 
Tk 。 这 类 受众 对 一 些 复杂 技术 可 能 缺乏 直接 兴趣 ， 如 第 4 章 和 第 5 


约定 
本 书 中 ， 有 几 个 经 常 出 现 的 标题 。 
为 了 明确 说 明 如 何 完成 一 个 程序 或 任务 ， 本 书 使 用 下 面 的 格式 详细 描述 操 


(EIR o 
实践 环节 : 标题 
1. 操作 1 
2. 榨 作 2 
3 操作 3 


通常 ， 需 要 一 些 额 外 的 解释 帮助 读者 理解 这 些 指令 ， 因 此 紧 随 其 后 的 是 是 
下 面 的 原理 分 析 。 


原理 分 析 


这 部 分 内 容 对 任务 运行 原理 或 刚 完成 的 指令 进行 解释 说 明 。 


本 书 还 包含 一 些 其 他 的 学 习 辅助 标记 ， 包 括 : 
随 演 测验 : 标题 


i T 扫 的 多 选 题 ， 目 的 在 于 帮助 读者 测试 对 相关 内 容 的 理解 是 否 


一 展 身手 ， 标 题 
这 部 分 内 容 设 置 一 些 实际 问题 ， 并 为 读者 提供 一 些 验证 所 学 内 容 的 方 


本 书 使 用 多 种 文字 风格 来 区 分 不 同 种 类 的 信息 。 下 面 是 一 些 例子 还 有 对 其 
意义 的 解释 。 


代码 块 设置 如 下 : 你 也 许 注意 到 ， 我 们 使 用 Unix 命 令 rm 而 不 是 DOSdel 命 
令 移 除 Drush 目录 。 


# * Fine Tuning 

# 

key_buffer = 16M 
key_buffer_size = 32M 


max_allowed_packet = 16M 
thread_stack = 512K 
thread_cache_size = 8 
max_connections = 300 


如 果 代 码 块 的 特定 部 分 需要 特别 关注 ， 相 应 行 或 内 容 会 加 粗 显 


# * Fine Tuning 

# 

key_buffer = 16M 
key_buffer_size = 32M 


max_allowed_packet = 16M 
thread_stack = 512K 
thread_cache_size = 8 
max_connections = 300 


命令 行 的 输入 或 输出 会 以 如 下 形式 显 


cd /ProgramData/Propeople 
rm -r Drush 
git clone --branch master http://git.drupal.org/project/drush.git 


新 词 或 者 重要 的 词 会 以 黑体 字 显 示 。 以 菜单 或 对 话 框 为 例 ， 读 者 在 屏幕 上 
看 到 的 内 容 如 下 所 示 “ 在 Select Destination Location. (选择 有 目的 地 址 ) 页 面 ， 
点 击 Next (下 一 步 ) 按钮 接受 默认 输出 地 址 ”。 

提示 : 警告 或 重要 提示 会 出 现在 这 样 的 方 框 里 。 


技巧 : 小 窍门 和 技巧 会 以 这 样 的 形式 出 现 。 


读者 反馈 

我 们 非常 欢迎 来 自 读 者 的 反馈 。 将 你 对 本 书 的 看 法 告诉 我 们 ， 哪 些 内 容 是 
你 喜欢 的 或 哪 蔡 是 你 不 喜欢 的 。 谈 痢 反 馈 可 以 硕 助 我们 人 不断 提 遍 书稿 质 
量 ， 这 是 非常 重要 的 。 


你 只 需 向 我 们 发 送 一 封 电子 邮件 ， 在 邮件 主题 中 提 及 书 名 即 可 反馈 你 的 意 
见 。 我 们 的 邮箱 是 : feedback(gpacktpub.com ° 


如 果 你 擅长 某 个 领域 并 对 写作 或 者 创作 有 兴趣 ， 请 参阅 
www.packtpub.com/authors 上 的 作者 指南 。 


客户 支持 


FUE E 图 书 ， 我 们 将 为 你 提供 多 种 服务 ， 使 你 本 次 购买 物 超 


下 载 示例 代码 
你 可 以 通过 http:/www.packtpub.com 网 站 的 账号 下 载 所 购买 Packt 书 籍 的 示例 


代码 文件 。 或 者 登录 网 站 http://www.packtpub.com/support 进行 注册 ， 随 后 
我 们 将 通过 电子 邮件 癌 你 发 送 本 书 配套 的 示例 代码 文件 。 


勘误 表 


虽然 作者 尽 最 大 努力 保证 本 书 内 容 的 准确 性 ， 然 而 错误 在 所 难免 。 如 果 你 
在 Packt 出 版 的 书 中 发 现 了 文字 错误 或 是 代码 错误 ， 上 衷心 希望 你 能 及 时 间 我 
们 反馈 ， 并 预 任 谢意。 你 的 意见 可 以 帮助 我 们 改进 图 书 的 后 续 版 本 ， 并 能 
帮助 其 他 读者 避免 错误 。 请 通过 以 下 步 又 提 区 你 发 现 的 错误 之 处 : 访问 网 
站 http://www.packtpub.com/submit-errata ， 选 择 相 应 图 书 ， 点 击 提交 勘误 
表 ， 登 记 你 的 勘误 表 详 情 。 勘 误 表 通过 验证 之 后 将 上 传 到 Packt 网 站 ， 或 添 
加 到 已 有 的 勘误 列表 中 。 


关于 盗版 


互联 网 上 的 盗版 问题 由 来 已 入， 而 且 各 种 形式 的 媒介 都 存在 这 个 问题 。 
Packt 出 版 社 非常 重视 版 权 保护 问题 。 如 果 你 在 互联 网 上 看 到 了 Packt 图 书 的 
任何 非法 揽 贝 ， 无 论 它 以 何 种 形式 存在 ， 请 立即 回 我 们 提供 其 位 置 或 网 站 
名 称 以 便 及 时 补救 。 

请 通过 邮箱 copyright@packtpub.com 与 我 们 联系 ， 并 附 上 涉嫌 盗版 材料 的 链 


接 


你 的 帮助 保障 了 Packt 图 书 作 者 的 权益 ， 也 让 我 们 能 持续 提供 高 品质 图 书 。 
问题 


如 有 果 你 有 关于 本 书 任何 方面 的 问题 ， 可 以 通过 questions@packtpub.com 联 系 
我 们 。 我 们 将 会 尽力 解决 。 


第 1 章 绪论 


本 书 介绍 一 种 大 规模 数据 处 理 的 开源 框架 一 一 Hadoop。 在 深入 探讨 它 的 
m a eR depot dius cS UE 
功 的 历史 背景 。 


Hadoop 并 不 十 和 空 想象 出 来 的 ， 它 的 出 现 源 于 人 们 创建 和 使 用 的 数据 量 
的 爆炸 性 增长 。 在 此 背景 下 ， 不 仅 是 庞大 的 跨国 公司 面临 着 海量 数据 处 
理 的 困难 ， 小 型 创业 公司 同样 如 此 。 与 此 同时 ， 其 他 历史 变革 改变 了 软 
件 和 系统 的 部 署 方 式 ， 除 了 传统 的 基础 设施 ， 人 们 开始 使 用 甚至 偏好 于 


he 
zn 


本 章 将 要 探讨 Hadoop 出 现 的 背景 ， 并 详细 讲解 Hadoop 想 要 解决 的 问题 和 决 
定 其 最 终 设计 的 内 在 驱动 因素 。 


本 章 包括 以 下 内 容 ; 
.概述 大 数据 革命 
.讲解 Hadoop 是 什么 以 及 如 何 从 数据 中 获取 有 价值 信息 ; 


。 探秘 云 计算 并 了 解 AWS (Amazon Web Services， 亚 马 示 网 络 服务 ) 的 
功能 ; 


。 了 解 大 数据 处 理 技术 与 云 计 算 相 结合 带 来 的 巨大 威力 ; 
。 概 述 本 书 其 余 章节 内 容 。 


现在 我 们 开始 吧 ! 


1.1 大 数据 处 理 


审视 现 有 技术 ， 不 难 发 现 ， 所 有 技术 都 以 数据 为 核心 。 作 为 用 户 ， 我 们 对 
富 媒 体 的 欲 户 与日俱增， 比如 观看 的 电影 和 创建 并 上 传 到 网 络 的 照片 和 视 
频 。 我 们 也 常常 在 日 常生 活 中 ， 不 经 意 地 在 网 上 留 下 一 串 数 据 。 


不 仅 是 数据 总 量 在 迅速 增加 ， 同 时 数据 生成 速率 也 在 不 断 增 加 。 从 电子 邮 
件 到 Facebook 留 言 ， 从 网 上 购物 记录 到 网 站 链接 ， 到 处 都 是 不 断 增长 的 大 
数据 集 。 在 此 至 景 下 ， 最 大 的 挑战 在 于 ， 如 何 从 这 些 数 据 中 提取 最 有 价值 
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微妙 的 变化 悄然 发 生 ， 数 据 的 使 用 方式 变 得 越 来 越 有 意义 。 一 段 时 间 以 
来 ， 大 型 公司 已 经 意识 到 了 数据 的 价值 ， 并 用 它 来 提升 服务 质量 。 例 如 ， 
Google 在 用 户 正 在 访问 的 网 页 上 显示 内 容 相关 的 广告 ，Amazon 或 Netflix 回 
用 户 推荐 合乎 其 口味 和 兴趣 的 新 产品 或 新 电影 。 


1.1.1 数据 的 价值 


如 果 不 会 带 来 有 价值 的 回报 或 者 明显 的 竞争 优势 ， 这 些 大 型 企业 是 不 会 投 
次 发展 大 数据 处 理 技术 的 。 应 当 从 以 下 几 个 方面 来 认识 大 数据 。 


。 只 有 在 数据 集 足 够 大 的 时 候 ， 某 些 问 题 才 变 得 有 意义 。 例 如 ， 在 其 他 
影响 因素 缺失 的 情况 下 ， 基 于 一 个 第 三 人 的 喜好 推荐 电影 是 不 可 能 非 
党 精准 的 。 然 而 ， 当 参考 样本 增加 到 100 时 ， 推 荐 成 功 的 几率 略 有 上 
而 使 用 1000 万 人 的 观看 记录 ， 可 以 大 幅 提升 获得 推荐 模型 的 可 能 


与 之 六 的 解决 方案 相 比 ， 大 数据 处 理工 具 通 第 能 够 以 较 低 的 成 本 处 理 
更 大 规模 的 数据 。 因 此 ， 能 够 在 可 接受 的 成 本 范围 内 执行 以 往 花 费 极 
高 的 数据 处 理 任 务 。 


大 规模 数据 处 理 的 成 本 不 仅 体现 在 财务 费用 上 ， 等 待 时 间 也 是 一 个 重 
要 因素 。 如 果 一 个 系统 能 够 处 理 所 有 到 达 数据 ， 但 是 其 平均 处 理 时 间 
以 周 为 计量 单位 ， 那 么 该 系统 也 是 不 可 用 的 。 大 数据 处 理工 具 通 过 将 
增加 的 数据 量 分 配 到 附加 的 硬件 ， 来 保证 即使 在 数据 量 增加 的 情况 
下 ， 人 处理 时 间 也 不 会 失控 。 


为 了 满足 数据 库 中 最 大 数据 的 需要 ， 可 能 需要 重新 审视 之 前 关于 数据 
库 形 式 或 者 其 中 数据 结构 的 假设 。 


综合 上 述 几 点 内 容 ， 足 够 大 的 数据 集 以 及 灵活 的 工具 可 以 使 之 前 无 法 
想象 的 问题 得 到 解答 。 


1.1.2 受众 较 少 

前 面 讨论 的 从 大 数据 中 提取 有 价值 信息 用 于 改进 服务 质量 的 例子 ， 往 往 属 
于 大 型 搜索 引擎 和 在 线 公司 的 创新 模式 。 这 是 因为 在 早期 发 展 过 程 中 ， 大 
数据 处 理 不 仅 成 本 高 而 且 实 现 困 难 ， 超 出 了 中 小 企业 的 能 力 范围 。 


同样 ， 比 大 数据 处 理 技 术 应 用 更 为 广泛 的 数据 控 据 方法 已 经 存在 了 很 长 一 
段 时 间 ， 但 是 在 大 型 企业 和 政府 部 门 之 外 却 从 来 没有 真正 得 到 推广 使 用 。 


这 种 情况 的 出 现 可 能 令 人 感到 遗憾 。 但 在 过 去 ， 对 于 大 多 数 小 公司 来 讲 却 
无 关 紧 有 要 ， 因 为 它们 的 数据 量 很 少 ， 并 不 需要 投入 大 量 的 资金 来 处 理 这 些 


然而 ， 现 如 今 数据 量 的 增加 不 再 局 限于 大 型 组 织 ， 许 多 中 小 型 公司 甚至 一 
些 个 人 收集 到 的 数据 也 越 来 越 多 。 他 们 也 意识 到 这 些 数据 中 可 能 包含 着 正 
待 发 掘 的 价值 。 


在 各 解 如 何 实现 这 一 目标 之 前 ， 很 有 必要 了 解 区 定 Hadoop 奈 统 基础 的 背景 
情况 。 


1. 经 典 的 数据 处 理 系统 


造成 大 数据 挖掘 系统 稀有 且 昂 贯 的 根本 原因 是 ， 将 现 有 小 型 计算 系统 扩展 
为 大 数据 处 理 系统 是 非常 困难 的 。 正 如 我 们 所 见 ， 一 直 以 来 ， 数 据 处 理 系 
统 的 处 理 能 力 一 直 受 限于 单 台 计算 机 的 极限 运算 能 力 。 


随 着 数据 规模 的 增长 ， 出 现 了 两 种 第 用 的 扩展 系统 的 方法 ， 通 肖 称 之 为 “ 癌 
上 扩展 ”和 “向 外 扩展 ”。 


。 向 上 扩展 


在 大 多 数 企业 ， 数 据 人 处理 任务 通常 由 相当 昂贵 的 大 型 机 来 执行 。 随 着 数据 
规模 的 增长 ， 丫 上 扩展 的 方法 就 古 将 数据 处 理 任务 迁移 到 更 大 的 服务 器 或 
者 存储 矩 孟 。 即 便 以 今天 的 视角 来 看 ， 这 种 以 构 确 实 有 效 ， 但 其 硬件 成 本 
会 很 容易 达到 几 十 万 甚至 儿 百 万 美元 。 本 章 的 后 续 内 容 对 此 有 所 涉及 。 


简单 的 同上 扩展 系统 的 优点 是 ， 系 统 的 杂 构 并 不 会 随 关 数据 量 的 增 大 而 发 
生 显著 变化 。 尽 管 采用 了 更 大 型 的 部 件 ， 但 部 件 之 间 的 基本 关系 (例如 数 
据 服务 器 和 存储 矩阵) 却 依然 保持 一 致 。 对 于 像 商 业 数据 库 引 擎 这 样 的 应 
用 而 言 ， 可 以 通过 软件 来 处 理 使 用 硬件 市 来 的 复杂 性 。 但 是 从 理论 上 来 
讲 ， 数 据 处 理 能 力 古 通过 把 相同 的 软件 迁移 到 规模 越 来 越 大 的 服务 器 上 来 
实现 的 。 需 要 注意 的 是 ， 把 软件 迁移 到 越 来 越 多 的 处 理 器 上 也 存在 一 定 困 
难 。 同 时 ， 单 台 计 算 机 的 处 理 能 力也 受到 现实 条 件 的 约束 。 因 此 ， 疝 上 扩 
展 的 系统 达到 其 极限 后 ， 无 法 进一步 扩展 数据 处 理 的 规模 。 


单一 架构 的 数据 处 理 器 的 规模 不 可 能 无 限 扩大 。 从 概念 上 来 讲 ， 通 过 向 上 
扩展 系统 的 方式 设计 一 个 处 理 能 力 为 ITB、100TB 到 1PB 数 据 的 系统 ， 可 能 
仅 需 使 用 更 大 规模 的 相同 部 件 。 但 随 着 数据 规模 的 增长 ， 这 些 定制 硬件 之 
间 连 接 的 复杂 性 可 能 与 之 前 的 廉价 部 件 有 所 不 同 。 


。 早期 向 外 扩展 的 方法 


向 外 扩展 的 方法 并 不 通过 升级 系统 的 硬件 来 获得 更 强 的 处 理 能 力 ， 而 是 将 
数据 处 理 任务 分 发 给 越 来 越 多 的 机 严 。 如 采 数 据 集 的 规模 翻 倍 了 ， 那 束 使 
用 两 台 机 器 来 处 理 ， 而 不 是 一 台 有 着 两 倍 处 理 能 力 的 机 器 。 如 采 数 据 规模 
继续 翻 倍 ， 那 瑟 使 用 四 台 机 絮 来 处 理 。 


与 向 上 扩展 的 方法 相 比 ， 向 外 扩展 系统 的 明显 优势 在 于 采购 成 本 大 大 低 于 
前 者 。 大 型 机 的 硬件 成 本 随 关 处理 能 力 的 增长 而 激增 一 一 假设 一 台 主 机 的 
采购 成 本 为 5000 美 元 ， 那 么 一 台 具 有 10 倍 处 理 能 力 的 机 器 可 能 要 花 掉 百倍 


的 钱 。 向 外 扩展 系统 方法 的 不 足 之 处 在 于 ， 需 要 确定 一 种 策略 来 把 数据 处 
理 任务 分 发 给 不 同 的 机 器 ， 而 经 验证 明 具 有 上 述 用 途 的 工具 异常 复杂 。 


因此 ， 部 署 一 套 同 外 扩展 的 解决 方案 是 一 项 浩大 的 工程 。 系 统 人 研发 人 员 不 
仅 要 设计 数据 切 分 和 重组 机 制 ， 还 要 设计 在 处 理 器 集群 间 调 度 工作 和 处 理 
个 别 机 器 故障 的 逻辑 。 


2. 制约 因素 


除 大 型 企业 、 政 府 和 学 术 人 研究 机 构 外 ， 上 述 回 上 扩展 和 向 外 扩展 的 方法 并 
没有 得 到 广泛 应 用 。 通 营 ， 系 统 的 采购 成 本 很 高 ， 人 研发 和 维护 这 些 系统 的 
成 本 同样 很 高 。 这 些 因素 导致 这 些 系统 很 难 被 小 型 企业 所 接纳 。 此 外 ， 这 
些 方 法 本 身 的 缺陷 也 随 着 时 间 推 移 逐 步 显 现 。 


。 随 着 向 外 扩展 的 系统 规模 变 大 或 者 向 上 扩展 的 系统 所 需 CPU 数量 增 
多 ， 由 系统 并 发 之 来 的 系统 复 洒 性 问题 日 益 明显 。 如 何 有 效 利用 多 台 
主机 或 多 个 CPU 是 一 个 大 难题 。 要 想 在 整个 数据 处 理 任务 执行 期 间 保 
持 系 统 高 效 运作 ， 需 要 付出 极 大 的 努力 。 


。 通常 硬 件 性 能 (用 摩尔 定律 描述 ) 的 提升 在 不 同 硬件 上 的 表现 大 相 径 
庭 。CPU 人 性 能 的 提升 速度 远 远 超过 了 网 络 或 硬盘 性 能 提升 的 速度 。 
CPU 周期 一 度 是 系统 中 最 有 价值 的 资源 ， 现 在 却 并 非 如 此 。 现 代 CPU 
的 运行 速度 是 20 年 前 的 数 百 万 倍 ， 然 而 内 存 和 硬 强 的 速度 却 只 提升 了 
上 千 倍 甚至 上 百倍 。 用 这 种 高 性 能 CPU 很 容易 搭建 一 个 现代 系统 ， 但 
在 该 系统 中 ， 存 储 系统 提供 数据 的 速率 却 无 法 满足 CPU 的 工作 需要 。 


1.1.3 ”一 种 不 同 的 方法 


上 述 场 景 中 ， 有 一 些 技术 成 功 地 解决 了 令 人 头疼 的 将 数据 处 理 系统 扩展 为 
大 数据 处 理 系 统 的 问题 。 


1. 条 条 大 路 通 罗马 : 向 外 扩展 


如 上 所 述 ， 采 用 同上 扩展 的 方法 并 不 是 一 种 开放 式 的 策略 。 它 受 限 于 从 主 
流 的 硬件 供应 商 购买 的 单个 服务 器 的 规模 ， 甚 至 专业 的 供应 丙 部 无 法 提供 
足够 大 的 服务 器 。 在 某 些 情况 下 ， 工 作 人 负载 的 增 量 会 超出 单 台 整体 同上 扩 
展 的 服务 器 的 能 力 ， 这 时 该 怎么 办 呢 ? 很 遗憾 ， 最 好 的 办 法 就 是 使 用 两 台 
大 型 服务 器 ， 而 不 是 一 台 服 务 器 。 以 此 类 推 ， 就 会 有 三 台 、 四 台 ， 甚 至 更 
多 服务 右 。 或 者 换言之 ， 在 极端 情况 下 ， 同 上 扩展 淋 构 的 必然 趋势 是 加 入 
问 外 扩展 的 策略 ， 将 二 者 结合 起 来 。 尽 管 这 样 同时 吸收 了 两 种 方法 的 部 分 


优点 ， 但 也 综合 了 两 种 方法 的 缺陷 和 成 本 : 单一 的 方法 要 么 需要 昂贵 的 硬 
件 ， 要 么 需要 手工 开发 跨 集群 逻辑 ， 而 在 混合 架构 中 缺 一 不 可 。 


向 上 扩展 架构 的 终极 趋势 和 成 本 曲线 导致 其 在 大 数据 处 理 领域 鲜 有 应 用 ， 
而 同 外 扩展 的 架构 却 成 了 事实 上 的 标准 。 


技巧 : 假如 竺 解决 的 问题 涉及 的 数据 具有 很 强 的 内 部 交叉 引用 ， 并 需 保 
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2. 不 共享 任何 内 容 


父母 会 伦 相 当 长 的 时 间 去 教 孩 子 ， 这 是 一 个 很 好 的 共享 和 案例。 但是， 不 应 
将 共享 原则 延伸 到 数据 处 理 系统 ， 这 一 原则 既 适 用 于 数据 也 适用 于 硬件 。 


从 概念 上 看 ， 向 外 扩展 架构 刻意 凸显 了 主机 的 独立 性 ， 每 台 主 机 处 理 整 个 
数据 集 的 一 个 子 集 ， 并 输出 最 终结 果 的 一 部 分 。 现 实情 况 通常 并 非 如 此 简 
单 。 相 反 ， 主 机 之 间 可 能 需要 通信 ， 多 台 主 机 可 能 会 用 到 相同 的 一 些 数据 
人 
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苋 争 的 客户 端 访问 同一 数据 或 同一 主机 很 可 能 造成 系统 延迟 。 例 如 ， 由 25 
台 主 机 组 成 的 系统 中 ， 所 有 的 主机 都 必须 访问 其 中 一 台 主 机 ， 整 个 系统 的 
性 能 殉 会 受 限 于 这 人 台 关 键 主机 的 处 理 能 力 。 


更 糟 粹 的 是 ， 如 采 这 个 “ 热 护 ”服务 器 或 存储 系统 的 关键 数据 失效 ， 那 么 整 
个 工作 将 会 瞬间 瘫痪 。 早 期 的 集群 解决 方案 往往 证 明了 这 一 风险 一 一 即便 
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与 共 吝 货源 不 同 ， 一 个 系统 的 各 个 组 成 部 分 应 当 尽 可 能 保持 独立 。 这 种 情 
况 下 ， 每 个 部 件 都 能 正常 工作 ， 而 不 用 理会 其 余部 件 是 否 忙于 处 理 复 杂 的 
工作 ， 或 是 否 已 处 于 故障 状态 。 


3. 故障 预期 
上 述 原 则 提倡 尽 可 能 保持 独立 ， 然 而 潜在 的 弊端 是 要 消耗 更 多 的 硬件 。 如 
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提示 :， 读 者 可 能 经 常 听 到 “五 个 九 "这 样 的 词 ， 它 指 的 是 99.999% 的 正常 运 
行 时 间或 者 可 用 性 。 虽 然 从 绝对 意义 上 来 讲 ， 这 是 最 好 的 可 用 性 ， 但 也 
要 认识 到 ， 由 许多 这 种 设备 组 成 的 系统 的 整体 可 靠 性 可 以 相差 很 大 ， 这 
取决 于 该 系统 能 否 容 忍 单 个 组 件 故障 。 


假设 一 套 系 统 需要 5 台 可 靠 性 达 99% 的 服务 器 才能 运行 。 那 么 ， 该 系统 的 
可 用 性 为 0.99*0.99*0.99*0.99*0.99， 也 就 是 可 用 性 为 95%6。 但 是 如 果 单 个 
服务 器 的 可 靠 性 仅 为 95% 的 话 ， 那 么 整个 系统 的 可 靠 性 就 下 降 到 只 有 
7696 ^ 


相反 ， 如 果 在 任意 时 刻 ， 只 要 保证 5 台 服 务 器 中 的 1 台 正 常 工作 ， 系 统 即 运 


行 正 常 。 那 么 ， 系 统 的 可 用 性 就 高 达 99.999%。 系统 的 正常 运行 时 间 与 各 个 
ee 


技巧 : 如 采 “ 系 统 可 用 性 为 99%” 这 样 的 表述 有 点 抽象 的 话 ， 可 以 从 系统 
在 给 定时 间 段 内 的 故障 时 间 来 考虑 这 一 问题 。 举 个 例子 来 说 明 ，99% 的 可 
用 性 相当 于 一 年 中 有 3.5 天 的 故障 时 间 ， 或 者 是 一 个 月 中 有 7 个 小 时 的 故障 
时 间 。999% 的 可 用 性 还 是 听 上 去 那么 美好 吗 ? 


接受 故障 的 做 法 ， 往 往 是 新 手 在 充分 理解 大 数据 处 理 系 统 过 程 中 感到 最 为 
困惑 的 一 个 方面 。 这 也 是 它 与 向 上 扩展 系统 架构 的 方法 区 别 最 大 的 地 方 。 
大 型 的 向 上 扩展 的 服务 器 成 本 昂贵 的 一 个 主要 原因 是 ， 生 产 商 要 投入 巨大 
努力 来 减少 部 件 故 障 给 系统 带 来 的 影响 。 即 便 是 低 端 服务 器 也 会 有 宛 余 电 
源 ， 但 在 大 型 计算 机 机 箱 里 ， 多 个 CPU 安装 在 CPU 卡 上 ， 这 些 CPU 卡 又 通过 
多 个 背 板 连接 至 内 存 插 模 和 存储 系统 。 大 型 计算 机 厂商 经 常 通过 各 种 形式 
的 极端 方法 来 展示 其 产品 的 健壮 性 ， 如 将 正在 运行 的 系统 部 件 直接 拔 出 ， 
甚至 用 枪 向 其 射击 。 如 果 系 统 构建 时 ， 设 计 者 考虑 到 了 可 能 出 现 的 故障 并 
保证 其 发 生 的 概率 在 可 接受 范围 内 ， 而 不 是 将 每 次 故障 作为 必须 消除 的 危 
机 ， 将 会 出 现 完全 不 同 的 体系 结构 o 


4. 软件 智能 化 ， 硬 件 傻瓜 化 
如 采 我 们 布 望 尽 可 能 地 灵活 使 用 硬件 集群 ， 为 许多 并 行 工作 流程 捉 供 托管 
服务 ， 解 决 方案 就 是 为 软件 注入 智能 并 从 硬件 抽 离 智能 。 


在 这 种 模式 下 ， 硬 件 被 视 为 资源 的 集合 ， 由 软件 层 来 负责 问 硬 件 分 配 特 定 
的 工作 任务 负载 。 这 束 使 得 硬件 成 为 通用 的 ， 并 且 价 格 较 为 低廉 ， 更 易于 
获得 。 同 时 ， 有 效 利用 硬件 的 功能 转移 到 了 软件 ， 而 关于 如 何 有 效 执行 任 
务 的 知识 恰恰 贮存 在 软件 中 。 


5. 移动 处 理 程序 ， 而 非 移动 数据 


假设 需要 对 一 个 很 大 的 数据 集 (比如 1000 TB， 也 就 是 1 PB) 中 的 每 块 数据 
执行 4 项 操作 。 下 面 看 一 下 解决 上 述 问 题 的 系统 的 不 同 实现 方法 。 


传统 的 基于 大 型 计算 机 的 加 上 扩展 方案 会 用 到 一 个 巨大 的 服务 占 ， 它 连接 
到 一 个 同样 令 人 印象 深刻 的 存储 系统 。 几 乎 可 以 肯定 ， 该 系统 使 用 了 诸如 
光纤 信道 之 类 的 技术 来 最 大 限度 地 提高 存储 带宽 。 该 系统 可 以 完成 上 述 任 
务 ， 却 会 要 成 TO 密集 型 系统 ;即便 是 高 端 存储 交换 机 也 会 限制 从 存储 系统 
到 主机 的 数据 传输 速率 。 


另 一 种 方法 基于 之 前 提 到 的 集群 技术 ， 该 方法 会 用 到 一 个 由 1000 台 机 器 组 
成 的 集群 。 这 1000 台 主机 被 划分 为 4 个 象限 ， 每 个 象限 对 应 一 种 操作 。 每 台 
主机 都 存 有 1 TB 数据 并 负责 执行 四 项 操作 之 一 。 集 群 管理 软件 将 会 协调 数 
据 在 集群 间 的 流转 ， 确 保 每 块 数据 都 经 过 4 个 处 理 过 程 。 当 每 块 数据 在 其 自 
身 驻 留 的 主机 上 进行 一 次 运算 之 后 ， 就 会 被 传送 到 其 他 三 个 象限 。 因 此 ， 

这 个 数据 处 理 任 务实 际 上 消耗 了 3 PB 的 网 络 带宽 。 


请 注意 ，CPU 处 理 能 力 提升 的 速度 已 经 超过 了 网 络 或 硬盘 技术 。 那 么 ， 难 
道 这 些 是 解决 问题 的 最 好 办 法 吗 ? 最 近 的 经 验 表 明 ， 管 案 是 否定 的 ， 男 一 
种 蔡 代 方法 十 移动 处 理 过 程 而 避免 移动 数据 。 使 用 刚才 提 到 的 集群 拉 术 ， 
但 不 要 分 阶段 处 理 数据 ， 而 是 让 1000 个 节点 中 的 每 个 节点 对 其 存储 的 数据 
执行 全 部 4 个 处 理 阶段 。 如 果 幸 运 的 话 ， 此 时 只 需 将 数据 在 硬盘 上 流转 一 
次 ， 而 在 网 络 上 传输 的 将 是 二 进 制 程序 和 状态 报告 ， 二 者 相对 于 有 问题 的 
实际 数据 集 来 讲 ， 真 是 小 恶 见 大 巫 。 


如 有 条 一 个 有 着 1000 个 下 点 的 集群 听 起 来 大 得 离谱 ， 那 么 想像 一 下 那些 用 于 
大 数据 解决 方案 的 现代 服务 融 的 构成 模块 。 每 台 这 种 单机 都 配 有 12 个 容量 
为 1 TB 甚至 2 TB 的 硬盘 。 因 为 现代 处 理 器 是 多 核 的 ， 构 建 一 个 由 50 个 节点 
组 成 的 集群 并 非 难 事 ， 这 个 集群 有 1 PB 的 存储 能 力 ， 并 有 一 个 CPU 专门 用 
于 处 理 从 每 个 硬盘 传 出 的 数据 。 


6. 构建 应 用 程序 ， 而 非 基 础 架构 


当 思 考 上 市 中 提 到 的 问题 时 ， 多 数 人 会 将 精力 集中 在 数据 迁移 和 数据 处 理 
的 问题 上 。 但 是 ， 曾 经 搭建 过 这 种 系统 的 人 就 会 知道 ， 大 部 分 精力 却 是 用 
在 设计 一 些 不 太 明 显 的 因素 的 处 理 逻 辑 上 ， 如 任务 调度 、 异 常 处 理 、 协 调 


配合 等 。 


我 们 必须 实现 一 些 机 制 来 确定 在 哪 台 主机 上 执行 处 理 任务 、 实 现 处 理 过 
程 、 将 子 结果 合并 为 整体 结 采 ， 并 且 无 法 从 以 前 的 模型 中 获得 多 少 帮 助 。 
我 们 需要 明确 地 管理 数据 分 区 ， 这 只 是 用 一 个 难题 换 来 了 男 一 个 难题 。 


上 上述 问题 与 我 们 将 强调 的 最 新 研究 趋势 相关 ， 透明 处 理 集群 的 大 部 分 结构 
问题 ， 让 开发 者 专注 于 思考 业务 问题 。 基 于 明确 定义 的 系统 接口 ， 开 发 者 
可 以 创建 特定 业务 领域 的 应 用 程序 ， 提 供 此 类 接口 的 框架 将 是 开发 者 和 系 
统 效率 的 最 佳 组 合 。 


1.1.4 Hadoop 


得 知 上 壕 方 法 都 是 Hadoop 的 主要 特性 之 后 ， 思 维 续 密 的 读者 并 不 会 感到 怀 
讶 。 但 直到 现在 ， 我 还 没有 准确 地 回答 什么 是 Hadoop。 


1. 感谢 Google 


Hadoop 起 源 于 Google。Google 公 司 于 2003 年 和 2004 年 发 表 了 两 篇 描述 

Google 技 术 的 学 术 论 文 : 谷歌 文件 系统 (GFS) 
(http://research.google.com/archive/gfs.html ) 和 MapReduce 
(http://research.google.com/archive/mapreduce.html ) 。 它 们 提供 了 一 个 高 效 


处 理 极 大 规模 数据 的 平台 。 
PA 感谢 Doug 


与 此 同时 ，Doug Cnutting 正 在 研究 开源 的 网 页 搜索 引擎 Nutch。 他 一 直 致 力 
于 系统 原理 的 工作 ， 当 Google 的 GFS 和 MapReduce 论 文 发 表 后 ， 引 起 了 他 的 
强烈 共鸣 。Doug 开 始 着 手 实现 这 些 Google 系 统 ， 不 久之 后 ，Hadoop 诞 生 

了 。Hadoop 早 期 以 Lucene 子 项 目的 形式 出 现 ， 不 久之 后 成 了 Apache 开 源 基 
金 会 的 顶级 项 目 。 因 此 ， 从 本 质 上 来 讲 ，Hadoop 是 一 个 实现 了 MapReduce 
E 的 开源 平台 ， 它 可 以 在 由 低 成 本 硬件 组 成 的 集群 上 处 理 极 大 规模 


3. 感谢 Yahoo 


2006 年 ，Yahoo 雇 用 了 Doug Cutting 并 迅速 成 为 Hadoop 项 目 最 重要 的 文 持 者 
之 一 。 除 了 经 常 推广 一 些 全 球 最 大 规模 的 Hadoop 部 署 之 外 ，Yahoo 人 允许 
Doug 和 其 他 工程 师 们 在 受 雇 于 Yahoo 期 间 ， 和 致力 于 Hadoop 的 工作 。 同 时 ， 
Yahoo 也 贡献 了 一 些 公 司 内 部 开发 的 Hadoop 改 进 和 扩展 程序 。 尽 管 Doug 目 
前 已 经 转 到 Cloudera 〈 另 一 家 大 力 文 持 Hadoop 团 体 的 创业 公司 ) 任职 ， 


Yahoo 的 Hadoop 团 队 已 经 分 拆 为 名 叫 Hortonworks 的 创业 公司 ，Yahoo 依 然 是 
Hadoop 的 一 个 主要 文 持 者 。 


4. Hadoop 的 组 成 部 分 


作为 一 个 顶级 项 目 ，Hadoop 项 目 包含 许多 组 件 子 项 目 。 本 书 中 将 讨论 其 中 
几 个 子 项 目 ， 最 主要 的 两 个 子 项 目 分 别 为 Hadoop 分 布 式 文件 系统 

(HDFS) 和 MapReduce。 这 两 个 子 项 目 是 对 Google 特 有 的 GFS 和 
MapReduce 的 直接 实现 。 本 书 将 详细 讨论 HDFS 及 MapReduce， 但 现在 最 好 
将 它们 视 为 一 对 独立 而 又 互补 的 技术 。 


HDFS 是 一 个 可 以 存储 极 大 数据 集 的 文件 系统 ， 它 是 通过 癌 外 扩展 方式 构 
建 的 主机 集群 。 它 有 着 独特 的 设计 和 性 能 特点 ， 特 别 是 ，HDFS 以 时 延 为 代 
价 对 吞吐 量 进 行 了 优化 ， 并 且 通 过 副本 替换 元 余 达 到 了 高 可 靠 性 。 
MapReduce 是 一 个 数据 处 理 范 式 ， 它 规范 了 数据 在 两 个 处 理 阶 段 (被 称 为 
Map 和 Reduce) 的 输入 和 输出 ， 并 将 其 应 用 于 任意 规模 的 大 数据 集 。 
MapReduce 与 HDFS 紧 密 结合 ， 确 保 在 任何 情况 下 ，MapReduce 任 务 直 接 在 
存储 所 需 数 据 的 HDFS 节 点 上 运行 。 
5. 公共 构建 模块 
HDFS 和 MapReduce 都 体现 了 一 些 上 一 市 摘 述 的 体系 原则 。 特 别 是 : 

。 都 是 面向 廉价 服务 器 (也 就 是 说 ， 中 低 端 ) 集群 设计 的 ; 

。 都 是 通过 增加 更 多 的 服务 器 来 实现 系统 扩展 (向 外 扩展 ) ; 

。 都 包含 了 检测 和 处 理 故 障 的 机 制 ; 

。 都 透明 地 提供 了 许多 服务 ， 从 而 使 用 户 可 以 更 专注 于 手头 的 问题 ; 


。 都 采用 了 同样 的 架构 ， 其 中 驻 留 在 物理 服务 器 上 的 软件 集群 控制 着 系 
统 运行 的 各 个 方面 。 
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6. HDFS 


HDFS (Hadoop Distributed File System，Hadoop 分 布 式 文件 系统 ) 与 之 前 所 
见 过 的 大 部 分 文件 系统 都 不 太一 样 。HDFS 古 一 个 不 具备 POSIX 兼 容 性 的 文 
件 系统 ， 这 基本 上 意味 着 它 不 能 提供 像 普 通 文件 系统 一 样 的 保障 。 它 也 是 


一 个 分 布 式 文件 系统 ， 这 意味 着 它 在 众多 节点 上 扩大 了 存储 在 某 些 年 以 
前 的 技术 中 ， 缺 乏 这 种 高 效 的 分 布 式 文件 系统 是 一 个 限制 性 因素 。HDFS 的 
主要 特点 如 下 所 示 。 


。 HDFS 通 常 以 最 小 64 MB 的 数据 块 存储 文件 ， 这 比 之 前 多 数 文件 系统 
的 4 KB~32 KB 分 块 大 得 多 。 


HDFS 在 时 延 的 基础 上 对 甜 吐 量 进行 了 优化 ， 它 能 够 高 效 处 理 对 大 文件 
的 读 请 求 流 ， 但 不 擅长 对 众多 小 文件 的 定位 请 求 。 


HDFS 对 普 衣 的 “一 次 写 入 ， 多 次 读 取 ”的 工作 负载 进行 了 优化 。 


每 个 存储 节点 上 运行 着 一 个 称 为 DataNode 的 进程 ， 它 管理 着 相应 主机 
上 的 所 有 数据 块 。 这 些 存储 节点 都 由 一 个 称 为 NameNode 的 主 进程 来 协 
调 ， 该 进程 运行 于 一 台独 立 主 机 上 。 


与 磁盘 阵列 中 设置 物理 元 余 来 处 理 人 磁盘 故障 或 类 似 策略 不 同 ，HDFS 使 
用 副本 来 处 理 故 障 。 每 个 由 文件 组 成 的 数据 块 存储 在 集群 中 的 多 个 市 
点 ，HDFS 的 NameNode 不 断 地 监视 各 个 DataNode 发 来 的 报告 ， 以 确保 
发 生 故 障 时 ， 任 意 数 据 块 的 副本 数量 都 大 于 用 户 配置 的 复制 因子 。 否 
则 ，NameNode 会 在 集群 中 调度 新 增 一 个 副本 。 


7. MapReduce 


里 做 MapReduce 技 术 相 对 较 新 ， 但 它 建立 在 数学 和 计算 机 科学 的 众多 基础 工 
A ER. Jn 适用 于 每 个 数据 元 素 的 数据 操作 的 的 述 方法 。 实际 上 ，map 
和 reduce 函数 的 概念 直接 来 目 于 函数 式 编程 语言 。 在 函数 式 编程 语言 中 ， 
map 和 reduce 了 画 数 被 用 于 对 输入 数据 列表 进行 操作 。 


另 一 个 关键 的 基本 概念 是 “分 而 治之 ”。 这 个 概念 的 基本 原则 是 ， 将 单个 问 
题 分 解 成 多 个 独立 的 子 任务 。 如 果 多 个 子 任 务 能 够 并 行 执行 ， 这 种 方法 更 
为 强大 。 在 理想 情况 下 ， 一 个 需要 运行 1000 分 钟 的 任务 可 以 通过 分 解 成 
1000 个 并 行 的 子 任务 ， 在 1 分 钟 内 即 可 完成 。 


MapReduce 是 一 个 基于 上 述 原 理 的 处 理 范式 ， 它 实现 了 从 源 数 据 集 到 结 采 
数据 集 的 一 系列 转换 。 在 最 位 单 的 情况 下 ， 作 业 的 输入 数据 作为 map 函数 
的 输入 ， 所 得 到 的 临时 数据 作为 reduce 画 数 的 输入 。 开 发 人 员 只 需 定义 数 
所 转换 形式 ，Hadoop 的 MapReduce 作 业 负 责 并 行 地 对 集群 中 的 数据 实施 所 
需 转换 。 虽 然 基 本 的 想法 可 能 并 无 太 大 新 意 ， 但 Hadoop 的 一 个 主要 优势 在 
于 它 如何 将 这 些 想 法 变 成 一 个 精心 设计 的 可 用 平台 。 
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传统 的 关系 型 数据 库 适 用 于 符合 定义 模式 的 结构 化 数据 。 与 之 不 同 ， 
MapReduce 和 Hadoop 在 半 结 构 化 或 非 结 构 化 数据 上 表现 最 好 。 与 符合 刚性 
模式 的 数据 不 同 ， MapReduce 和 Hadoop 仅 仅 要 求 将 数据 以 一 & 
式 提供 给 map KZ ° map 函数 的 输出 是 其 他 键 值 对 的 集 reduce 函数 
收集 汇总 最 终 的 结果 数据 集 。 


Hadoop 为 map 和 reduce 函数 提供 了 一 个 标准 规范 〈 即 接口 ) ， 上 述 规 范 
的 具体 实现 通常 被 称 为 mapper 和 reducer 。 一 个 典型 的 MapReduce 作 业 包 
括 多 个 mapper 和 reducer， 通 党 这 些 mapper 和 reducer 并 不 是 很 简单 。 开 发 人 
员 将 精力 集中 于 表达 从 数据 源 到 结果 数据 集 的 转化 天 系 上 ， 而 Hadoop 框 染 
会 管理 任务 执行 的 各 个 方面 : 并 行 处 理 ， 协 调配 合 ， 等 等 。 


最 后 一 点 可 能 是 Hadoop 最 重要 的 一 个 方面 。Hadoop 平 台 负 贡 执 行 数据 处 理 
的 各 个 方面 。 在 用 户 定义 了 任务 的 关键 指标 后 ， NU 成 了 系统 的 

责任 。 更 重要 的 是 ， 从 数据 规模 的 角度 来 看 ， 同 一 个 MapReduce 作 业 适 用 于 
存储 在 任意 规模 集群 上 的 任意 大 小 的 数据 集 。 RS RNATAL 
的 1 GB 数 据 ， Hadoop 会 相应 地 安排 处 理 过 程 。 即便 要 处 理 的 是 托管 在 超过 
1000 台 机 器 上 的 1 PB 数据 ，Hadoop 依 然 同 样 工 作 。 它 会 确定 如 何 最 高 
利用 所 有 主机 进行 工作 。 从 用 户 的 角度 来 看 ， 实 际 数据 和 集群 的 规模 是 
人 he 
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8. 组 合 使 用 效果 更 佳 


我 们 有 可 能 已 经 体会 到 了 HDFS 和 MapReduce 各 目的 价值 ， 但 当 它 们 组 合 使 
用 时 威力 更 强大 。 作 为 一 个 大 规模 数据 存储 平台 ，HDFS 并 非 必须 与 
MapReduce 配 套 使 用 。 尺 管 MapReduce 可 以 从 HDFS 之 外 的 数据 源 读 取 数 
据 ， 并 且 对 这 些 数据 执行 的 处 理 操作 DI Sa A, 但 截至 目前 ， 将 
HDFS 和 MapReduce 组 合 使 用 是 最 为 常见 的 情况 。 


当 执 行 MapReduce 作 业 时 ，Hadoop 需 要 决定 在 哪 台 主 机 执行 代码 才能 最 高 
效 地 处 理 数据 集 。 如 果 MapReduce 集 群 中 的 所 有 主机 从 单个 存储 主机 或 存储 
阵列 获取 数据 ， 在 很 大 程度 上 ， 在 哪 台 主机 执行 代码 并 不 重要 ， 因 为 存储 
系统 是 一 个 会 引发 竞争 的 共享 系统 。 但 如 果 使 用 HDFS 作 为 存储 系统 ， 基 于 
移动 数据 处 理 程序 比 迁 移 数据 本 身 成 本 更 低 的 原 则 ，MapReduce 可 以 在 目标 
数据 的 存储 节点 上 执行 数据 处 理 过 程 。 


见 的 Hadoop 部 署 模型 是 将 HDFS 和 MapReduce 集 群 部 署 在 同一 组 服务 器 
上 。 其 中 每 台 服 务 器 不 仅 承 载 了 竺 处 理 数 据 及 管理 这 些 数 据 的 HDFS 组 件 ， 
同时 也 承载 了 调度 和 执行 数据 处 理 过 程 的 MapReduce 组 件 。 当 Hadoop 接 收 


到 作业 后 ， 它 尽 可 能 对 驻 留 在 主机 上 的 数据 调度 进行 优化 ， 达 到 网 络 流量 
最 小 化 和 性 能 最 大 化 的 目标 。 


回想 一 下 以 前 的 例子 ， 如 何 对 分 布 在 1000 台 服务 器 上 的 1 PB 数据 执行 4 个 步 
又 的 处 理 任务 。MapReduce 模 型 (以 一 种 稍微 简化 和 理想 化 的 方式 ) 对 
HDFS 中 每 台 主 机 上 的 每 块 数据 执行 map 函数 定义 的 处 理 操作 ， 随 后 在 
reduce 函数 中 ， 复 用 集群 以 收集 各 个 主机 的 结果 并 转化 为 最 终 的 结果 集 。 


Hadoop 的 部 分 挑战 在 于 ， 如 何 将 单个 问题 分 解 成 map 函数 和 reduce 函数 
的 最 佳 组 合 。 前 述 方法 只 适用 于 4 阶段 处 理 链 可 独立 应 用 于 每 个 数据 元 素 的 
情况 。 在 后 续 章 节 将 会 看 到 ， 有 时 要 使 用 多 个 MapReduce 作 业 ， 其 中 某 个 作 
业 的 输出 将 作为 下 一 个 作业 的 输入 。 


9. 公共 架构 
正如 之 前 所 提 到 的 ，HDFS 和 MapReduce 软 件 集群 有 着 下 列 共 同 特点 。 
采用 了 相同 的 体系 结构 ， 用 专门 的 主 节点 对 工作 节点 集群 进行 管理 


每 种 情景 的 主 节点 (HDFS 的 主 节点 是 NameNode，MapReduce 的 主 节 
点 是 JobTracker) 监视 集群 的 运行 状况 并 处 理 故障 ， 处 理 方 式 包 括 移 走 
数据 块 或 者 重新 调度 失败 的 作业 。 


台 服 务 器 上 的 进程 (HDFS 的 进程 是 DataNode，MapReduce 的 进程 是 
TaskTracker) 负责 在 物理 主机 上 执行 任务 ， 包 括 从 NameNode 或 者 
JobTracker 接 收 指令 和 回 其 报告 健康 状态 和 运行 状况 。 


作为 一 个 小 的 术语 点 ， 主 机 或 服务 器 通常 指 的 是 承载 各 种 Hadoop 组 件 的 物 
理 硬件 。 节 点 指 的 是 作为 集群 组 成 部 分 的 软件 部 件 。 


10. 优势 与 劣势 


与 其 他 工具 一 样 ， PRETEN ATEO P 3H DE H Hadoop ER TRU E FRE 
利 重 要 。 本 书 大 部 分 内 容 会 在 之 前 大 数据 处 理 技术 绿 述 的 基础 上 强调 
Ce 但 在 早期 阶段 ， 理 解 在 什么 情况 下 Hadoop 并 非 最 好 的 选择 


Hadoop 选 用 的 体系 她 构 使 其 成 为 现在 这 样 灵活 且 可 扩展 的 数据 处 理 平 台 。 
但 是 ， 与 选择 大 多 数 染 构 或 设计 类 似 ， 必 须 理 解 一 些 由 此 引发 的 后 果 。 其 
中 最 主要 的 是 ，Hadoop 是 一 个 批量 处 理 系统 。 当 对 一 个 大 数据 集 执行 作业 


时 ，Hadoop 框 架 会 不 断 进行 数据 转换 直到 生成 最 终结 有 末 。 由 于 采用 了 大 的 
集群 ，Hadoop 会 相对 快速 地 生成 结果 ， 但 事实 上， 结果 生成 的 速度 还 不 足 
以 满足 缺乏 耐心 的 用 户 的 需求 。 因 此 ， 单 独 的 Hadoop 不 适用 于 低 时 延 查 
询 ， 例 如 网 站 、 实 时 系统 或 者 类 似 查 询 。 


当 使 用 Hadoop 处 理 大 数据 集 时 ， 安 排 作业 、 确 定 每 个 节点 上 运行 的 任务 及 
其 他 所 有 必需 的 内 务 管理 活动 需要 的 时 间 开 销 在 整个 作业 执行 时 间 中 是 微 
不 足 道 的 。 但 是 ， 对 于 小 数据 集 而 言 ， 上 壕 执行 开销 意味 看 ， 即 使 是 简单 
的 MapReduce 作 业 都 可 能 花费 至 少 10 秒 钟 。 


提示 : HBase 是 广义 Hadoop 家 族 的 另 一 位 成 员 ， 它 是 另 一 种 谷歌 技术 的 
开源 实现 。 它 提供 了 一 个 基于 Hadoop 的 非 天 系 型 数据 库 ， 使 用 了 多 种 方 
法 提供 低 延 迟 的 查询 服务 。 


但 是 ， 难 道 Google 和 Yahoo 不 是 Hadoop 最 强大 的 支持 者 吗 ? 在 它们 的 网 站 
中 ， 难 道 啊 应 时 间 不 是 最 重要 的 吗 ? 管 案 是 肯定 的 ， 这 种 现象 强调 了 一 个 
重要 方面 ， 即 如 何 将 Hadoop 与 其 他 技术 结合 起 来 发 挥 共同 优势 。 在 一 篇 论 
XH (httpz/research.google.com/archive/googlecluster.html ) ， 合 歌 简 述 了 他 
们 如 何 实 时 地 使 用 MapReduce: 在 网 络 疏 虫 获取 到 更 新 的 网 页 数据 后 ， 
MapReduce 对 庞大 的 数据 集 进 行 处理 ， 并 基于 此 生成 网 页 索引 ， 这 些 检索 被 
一 组 MySQL 服 务 器 用 于 为 终端 用 户 的 搜索 请 求 提 供 服 务 。 


1.2 ”基于 Amazon Web Services 的 云 计算 


云 计 算是 本 书 介 绍 的 另 一 个 技术 领域 。 书 中 以 Amazon Web Services 作 为 云 
计算 平台 的 例子 ， 介 绍 它 的 一 些 使 用 实例 。 但 首先 ， 我们 需要 了 人 解 一 些 围 
绕 云 计算 的 炒作 和 流行 语 。 


1.2.1 云 太 多 了 

云 计 算 已 经 成 为 一 个 被 滥用 的 术语 ， 可 以 说 ， 云 计算 概念 的 滥用 使 其 面临 
变 得 毫 无 意义 的 风险 。 因 此 ， 在 本 书 中 使 用 这 个 术语 的 时 候 ， 务 必 清 楚 3 
谨慎 表达 我 们 的 真实 意思 。 云 有 两 个 主要 的 特点 : 既是 一 种 新 的 可 选 架 

构 ， 也 是 一 种 解决 成 本 的 不 同方 法 。 

12.2 第 三 种 方法 


我 们 已 经 讨论 了 扩展 数据 处 理 系 统 的 两 种 方法 ， 同上 扩展 和 问 外 扩展 。 但 
古 运 今 为 止 ， 前述 讨论 想当然 地 认为 无 论 哪 一 种 方法 的 实现 ， 部 需要 系统 


开发 团队 购买 、 拥 有 、 安 厂 并 管理 物理 硬件 。 云 计算 提供 了 第 三 种 办 法 : 
用 户 把 应 用 程序 放 到 云端 ， 让 供应 商 处 理 系统 扩展 的 问题 。 


当然 ， 这 并 不 忌 古 那么 简单 。 但 是 对 于 许多 云 服务 来 讲 ， 这 种 模式 才 是 真 
正 的 革命 。 用 户 根据 一 些 公开 的 指南 或 者 接口 开发 软件 ， 然 后 把 它 部 署 到 
云 平台 ， 并 人 允许 它 在 成 本 允许 的 前 提 下 根据 需要 扩展 服务 。 但 是 由 于 扩展 
系统 通 肖 涉及 成 本 ， 所 以 这 是 一 个 引 人 关 注 的 命题 。 


1.2.3 不 同类 型 的 成 本 


这 种 云 计算 方式 同时 也 改变 了 系统 硬件 的 付费 方式 。 通 过 降低 人 硬件 基础 设 
施 成 本 ， 构 建 能 承载 数 干 甚至 数 百 万 客户 的 平台 ， 云 服务 提供 商 借 此 获得 
规模 经 济 ， 同 时 所 有 用 户 都 从 中 受益 。 作 为 使 用 者 ， 不 仅 有 人 车 你 操心 难 
度 较 大 的 工程 问题 ， 如 扩展 系统 的 问题 ， 而 且 你 可 以 根据 需要 的 负载 付 
费 ， 而 不 必 基 于 可 能 需要 的 最 大 工作 负载 来 确定 系统 规模 。 相 反 ， 用 户 获 
可 以 根据 工作 负载 的 需要 使 用 或 多 或 少 的 资 
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下 面 这 个 例子 可 以 说 明 这 一 点 。 因 为 要 计算 税 费 和 工资 数据 ， 许 多 公司 的 
财务 组 在 月 底 的 工作 量 较 大 ， 而 且 通 营 年 底 的 数据 处 理 任务 会 更 大 。 如 采 
需要 设计 一 个 这 种 系统 ， 购 买 多 少 硬件 最 为 合适 ? 如 果 购 买 的 硬件 仅 够 处 
理 日 党 工作 量 ， 系 统 可 能 会 在 月 底 陷 入 困境 ， 真正 的 磋 烦 可 能 出 现 于 年 底 
处 理 任务 运转 起 来 的 时 候 。 如 采 以 月 底 的 工作 量 来 度量 系统 规模 ， 系 统 的 
部 分 硬件 将 会 在 一 年 的 大 部 分 时 间 处 于 内置 状态 ， 而 且 仍 然 可 能 在 处 理 年 
底 任 务 的 时 候 陷 入 困境 。 如 采 根 据 年 底 的 工作 量 来 确定 系统 规模 ， a 
的 其 余 时 间 里 ， 系 统 会 有 大 量 的 内 置 产 能 。 除 了 考虑 购买 硬件 的 成 本 ， 

要 才 直 托管 和 运行 成 必须 务 器 的 用 电量 可 能 占 到 其 生 方 周期 中 成 林 的 一 
大 部 分 ) ， 你 基本 上 浪费 了 大 量 的 金钱 。 


云 计 算 按 需 服 务 的 特性 可 让 用 户 的 应 用 程序 在 一 个 规模 不 大 的 硬件 上 起 
步 ， 然 后 随 着 时 间 的 发 展 ， 向 上 或 向 下 动态 调整 其 硬件 规模 。 基 于 按 需 付 
费 的 模式 ， 用 户 成 本 随 厦 其 硬件 使 用 情况 而 变化 。 用 户 拥有 处 理 负 载 的 能 
力 ， 却 无 需 购买 足够 处 理 峰 值 负载 的 硬件 。 


这 种 模型 更 微妙 的 特性 在 于 ， 它 大 大 降低 了 企业 发 布 在 线 服 务 的 进入 成 
本 。 众 所 周知 ， 一 个 无 法 满足 需求 并 遭遇 性 能 问题 的 新 的 热点 服务 ， 将 很 
难 恢复 其 发 展 劳 大 和 重新 引起 用 尸 兴趣 。 例 如 ， 在 2000 年 ， 一 个 企业 要 想 
成 功 地 推出 新 品 ， 需 要 在 发 布 当天 落实 到 位 足够 的 容量 来 应 对 用 户 流量 的 
油 增 ， 这 既 古 他 们 所 期 望 的 ， 同 时 也 是 他 们 不 愿 看 到 的 。 将 物理 单元 的 成 
本 考虑 在 内 ， 在 产品 发 布 上 很 容易 就 会 花 掉 数 百 万 元 。 


如 今 ， 基 于 云 计算 ， 最 初 的 基础 设施 成 本 甚至 可 以 低 至 每 月 几 十 或 儿 百 美 
元 ， 而 且 这 只 在 需要 流量 的 时 候 才 会 有 所 增加 。 


1.2.4 AWS: Amazon 的 弹性 架构 


Amazon Web Services (AWS) 是 Amazon 提供 的 一 整套 云 计 算 服务 。 本 书 将 
会 用 到 其 中 几 种 服务 。 


1. 弹性 计算 云 (EC2) 


Amazon 的 弹性 计算 云 (EC2， 参 见 http://aws.amazon.com/ec2/ ) ， 其 本 质 上 
是 一 个 弹性 服务 器 。 在 注册 AWS 和 EC2 之 后 ， 只 需 任 个 人 信用 卡 的 有 关 信 
奶 即 可 获得 专用 虚拟 机 的 访问 权限 ， 在 这 些 服 务 器 上 可 以 很 容易 地 运行 多 
种 探 作 系统 ， 包 括 Windows 和 Linux 的 许多 变种 。 


需要 更 多 的 服务 器 吗 ? 只 需 局 动 更 多 的 机 右 。 需 要 更 强大 的 服务 右 吗 ? 只 
需 切 换 到 提供 更 高 规格 的 服务 器 上 ， 当 然 使 用 成 本 也 随 之 上 升 。 不 仅 如 
此 ，EC2 提 供 了 一 系列 免费 服务 ， 包 括 负载 均衡 名 、 静 仿 卫 地 址 、 额 外 的 高 
性 能 虚拟 磁盘 驱动 侨 ， 和 其 他 更 多 服务 。 


2. 简单 存储 服务 (S3) 


Amazon 的 S3 (Simple Storage Service， 简 单 存储 服务 ， 参 见 
http://aws.amazon.com/s3/ ) 是 一 种 提供 简单 键 值 存储 模式 的 存储 服务 。 利 
用 网 络 、 命 令 行 或 者 编程 接口 创建 对 象 ， 这 些 对 象 可 以 是 从 文本 文件 到 图 
片 到 MP3 的 一 切 对 象 。 基 于 层次 模型 ， 用 户 能 够 在 $3 中 存储 并 获取 数据 。 
在 这 个 模型 中 ， 用 户 可 以 创建 存放 对 象 的 桶 (bucke) 。 每 个 桶 都 有 一 个 唯 
一 标识 待 ， 并 且 桶 中 的 每 个 对 象 都 是 唯一 命名 的 。 这 种 简单 的 策略 成 吏 了 
Amazon 负责 数据 的 可 笔 性 和 可 用 性 ， 以 及 服务 扩展 
二 | 


3. 弹性 MapReduce (EMR) 


Amazon 的 弹性 MapReduce (EMR ， 参 见 
http://aws.amazon.com/elasticmapreduce/) ， 从 根本 上 来 讲 是 以 EC2 和 S3 为 基 
础 的 云端 Hadoop。 同 样 地 ， 使 用 多 种 接口 (CLI，Web 控 制 台 或 API) ， 用 
户 可 定义 一 些 Hadoop 工 作 流 属性 ， 例 如 所 需 的 Hadoop 主 机 数 和 源 数据 的 位 
ee dps diu 之 后 虚拟 的 开始 按 
于 被 按 下 。 


在 其 最 令 人 印象 深刻 的 模式 中 ，EMR 可 以 从 S3 获 取 源 数据 ， 利 用 基于 EC2 

创建 的 Hadoop 集 群 来 处 理 这 些 数 据 ， 将 结果 返回 到 S3， 然 后 终止 Hadoop 集 
群 及 承载 它 的 EC2 虚 拟 机 的 运行 。 当 然 ， 每 个 服务 都 是 有 成 本 的 ， 通 常 以 存 
储 的 数据 量 (以 GB 为 单位 ) 和 服务 器 使 用 时 间 为 计 费 基准 ， 但 无 需 专 用 硬 
件 即 可 获得 如 此 强大 的 数据 处 理 能 力 ， 其 功能 真 的 是 强大 。 


1.2.5 ”本 书 内 容 


本 书 中 ， 我 们 将 学 习 如 何 编 写 MapReduce 程 序 做 一 些 重要 的 数据 转换 ， 以 及 
如 何在 本 地 管理 和 AWS 托 管 的 Hadoop 集 群 上 运行 MapReduce 程 序 。 


我 们 不 仅 会 把 Hadoop 视 为 执行 MapReduce 作 业 的 引擎， 同时 也 会 探索 将 
Hadoop 融 入 企业 其 他 基础 设施 和 系统 的 方法 。 我 们 会 看 到 一 些 共同 的 结合 
点 ， 如 从 Hadoop 和 关系 型 数据 库 中 获取 数据 ， 以 及 如 何 使 Hadoop 看 起 来 更 
像 是 一 个 关系 数据 库 o 


双管齐下 


本 书 不 会 将 讨论 局 限 在 EMR 或 Amazon EC2 托 管 的 Hadoop。 我 们 在 讨论 如 何 
创建 和 管理 本 地 Hadoop 和 集群 (在 Ubuntu Linux 系 统 上 ) 的 同时 ， 也 会 演示 如 
何 通过 EMR 将 处 理 过 程 推 入 云端 。 


这 样 做 的 原因 来 目 两 方面 : 首先 ， 虽 然 EMR 使 Hadoop 更 易 访 问 ， 但 只 有 当 
手工 管理 集群 时 ， 才 能 充分 体会 Hadoop 技 术 的 各 项 特点 。 尽 管 在 手工 模式 
下 也 可 以 使 用 EMR， 人 然而 通常 使 用 本 地 集群 来 进行 学 习 研 究 。 其 次 ， 使 用 
托管 Hadoop 还 是 本 地 Hadoop 并 不 十 一 个 非 此 即 彼 的 选择 ， 有 时 用 户 会 担忧 
对 一 个 独立 的 外 部 供应 商 的 过 度 依赖 ， 所 以 许多 企业 混合 使 用 本 地 和 云 托 
管 的 Hadoop 服 务 。 从 实践 来 讲 ， 在 本 地 进行 开发 和 小 规模 测试 更 为 方便 ， 
然后 再 根据 产品 规模 将 其 部 署 到 云端 。 


在 后 面 的 一 些 章 季 中 ， 我 们 会 讨论 与 Hadoop 组 合 使 用 的 其 他 产品 。 在 这 音 
分 内 容 中 ， 本 书 内 给 出 一 些 本 地 集群 的 例子 ， 因 为 无 论 Hadoop 部 署 在 何 
处 ， 工作 原理 都 是 不 变 的 。 


1.3 小 结 
本 章 介 绍 了 关于 大 数据 、Hadoop 和 云 计 算 的 大 量 知识 。 


专门 探讨 了 大 数据 的 出 现 以 及 它 对 数据 处 理 方法 及 系统 染 构 的 改变 ， 这 一 
变革 几乎 可 以 让 任何 组 织 实 现 曾 经 昂贵 得 令 人 望而却步 的 技术 。 

本 章 还 回顾 了 ， 作 为 一 个 灵活 而 又 功能 强大 的 海量 数据 处 理 平 台 ，Hadoop 
的 产生 历史 和 构建 方式 。 我 们 还 研究 了 云 计 算 提 供 的 另 一 种 系统 架构 方 
式 。 这 种 方式 从 前 期 巨额 成 本 和 直接 的 物理 责任 转变 为 按 需 付费 模式 ， 并 
依赖 云 服 务 提供 商 来 提供 硬件 、 管 理 服 务 和 扩展 系统 。 我 们 也 明白 了 什么 
是 Amazon Web Services， 以 及 弹性 MapReduce 服 务 怎 样 利 用 其 他 AWS 服 务 
实现 云端 Hadoop。 


我 们 还 讨论 了 本 书 的 目标 ， 以 及 如 何 学 习 本 地 Hadoop 和 AWS 托 管 的 
Hadoop ° 


现在 ， 我 们 已 经 掌握 了 Hadoop 的 基础 知识 ， 并 了 解 了 这 项 技术 的 起 源 和 优 
势 。 我 们 需要 动手 让 系统 运行 起 来 ， 这 也 是 第 2 章 将 要 做 的 : 安装 并 运行 
Hadoop ? 


第 2 章 ”安装 并 运行 Hadoop 


既然 我 们 已 经 研究 了 大 数据 处 理 市 来 的 机 遇 和 挑战 ， 并 且 了 解 了 Hadoop 
的 优势 所 在 ， 现 在 束 来 安 痰 并 运行 Hadoop 吧 。 


本 章 包 括 以 下 内 容 : 
。 学 习 如 何在 本 地 Ubuntu 主 机 安装 并 运行 Hadoop:; 


。 运行 一 些 Hadoop 程 序 实例 并 熟悉 Hadoop 系 统 ; 


。 注册 使 用 Amazon Web Services 产 品 (如 EMR) 所 需要 的 账号 ; 


在 Elastic MapReduce 上 创建 符合 需求 的 Hadoop 集 群 ; 
人 研究 本 地 Hadoop 集 群 与 托管 Hadoop 集 群 的 关键 区 别 。 
2.1 基于 本 地 Ubuntu 主 机 的 Hadoop 系 统 


^J Y Wr2izs/MBUHadoop, ZkTUEEEL— 6 RE & UbuntucETL7 ffl »« —& EHL 
(一 台 物 理 计算 机 或 虚拟 机 ) 即 可 满足 运行 Hadoop 所 有 组 件 和 研究 


MapReduce 的 需要 。 然 而 ， 企 业 产品 集群 很 可 能 由 多 人 台 机 器 组 成 ， 所 以 如 宁 
能 在 部 闭 于 多 台 主 机 的 Hadoop 集 群 进行 开发 ， 读 肴 将 获得 很 好 的 经 验 。 然 
而 ， 对 于 起 步 而 言 ， 单 台 主机 束 足 够 了 。 


我 们 将 讨论 的 内 容 并 非 仅 限于 Ubuntu 操作 系统 ，Hadoop 能 够 在 任何 Linux 操 
作 系统 上 运行 。 很 明显 ， 如 有 果 读 者 使 用 了 Ubuntu 之 外 的 操作 系统 ， 可 能 需 
要 修改 一 下 环境 配置 ， 但 区 别 应 该 不 大 。 


其 他 操作 系统 


Hadoop 在 其 他 平台 上 运行 效果 良好 。Windows 和 Mac OS X 都 是 开发 者 的 热 
门 选择 。Windows 只 能 作为 Hadoop 的 开发 平台 ， 而 Mac OS X 没 有 得 到 
Hadoop 的 正式 文 持 。 


如 果 选 择 使 用 这 类 平台 ， 情 况 将 与 使 用 其 他 Linux 发 行 版 本 相 类 似 。 在 这 两 

个 平台 上 使 用 Hadoop 处 理工 作 任 务 的 方法 是 相同 的 ， 但 需要 使 用 操作 系统 

目 带 的 特定 机 制 设 置 环 境 变 量 和 类 似 任务 。Hadoop FAQ 包 含 一 些 其 他 平台 

的 信息 ， 如 果 读 者 打算 在 其 他 平台 运行 Hadoop， 应 当前 先 参 考 Hadoop FAQ 
(参见 http://wiki.apache.org/hadoop/FAQ ) 解决 相关 问题 。 


2.2 ”实践 环节 : 检查 是 否 已 安装 JDK 


Hadoop 是 用 Java 实 现 的 ， 所 以 需要 首先 在 Ubuntu 主机 上 安装 最 新 的 Java 开 发 
工具 包 UDK) 。 执 行 下 列 步 又 检查 JDK 是 否 可 用 : 


1. 首先 ， 打 开 一 个 终端 并 输入 以 下 内 容 来 检查 JDK 是 否 可 用 : 


$ javac 
$ java -version 


.如 打上 述 命 令 返回 “不 存在 这 样 的 文件 或 路 径 ? 或 者 类 似 的 错误 ， 或 者 
第 二 个 命令 返回 “打开 JDK” 的 提示 ， 很 可 能 需要 下 载 完 整 的 JDK。JDK 
可 以 从 Oracle 下 载 页 面 获 得 ， 地 址 是 
http://www.oracle.com/technetwork/java/javase/downloads/index.html ， 从 


中 选择 最 新 发 布 的 版 本 。 


3. 一 日 安装 了 Java 之 后 ， 将 JDK/bin 路 径 添 加 到 用 户 路 径 ， 并 用 下 列 命 
令 设置 JAVA_HOME 环境 变量 ， 注 意 将 Java 版 本 号 修改 成 读者 使 用 的 
Java 有 版 本 。 


N 


$ export JAVA_HOME=/opt/jdk1.6.9_24 


$ export PATH-$JAVA HOME/bin:$(PATH) 


原理 分 析 


上 述 步 又 确保 用 户 安 痛 了 正确 的 Java 版 本 ， 并 可 以 在 命令 行 下 调用 ， 而 无 须 
使 用 元 长 的 路 径 名 指明 安装 位 置 。 


请 注意 ， 上 面 的 命令 只 对 当前 正在 运行 的 shell 产 生 影响 。 这 些 设置 将 在 注 
销 用 户 ， 关 闭 shell， 或 重新 启动 系统 之 后 清除 。 为 了 确保 相同 的 设置 始终 
有 效 ， 可 以 把 这 些 设置 添加 到 读者 选中 的 shell 启 动 文件 内 。 例 如 ， 对 于 
Bash shell 来 讲 ， 其 启动 文件 为 .bash _profile ， 对 于 TCSH 来 讲 ， 其 启 
动 文件 为 .cshrc e 


我 所 青睐 的 另 一 种 方法 是 ， 把 所 有 必需 的 配置 放 入 一 个 独立 的 文件 ， 然 后 
从 命令 行 显 式 地 调用 此 文件 。 例 如 : 


$ source Hadoop config.sh 


这 种 方法 允许 读者 在 同一 账户 内 保持 多 个 安 流 文件 ， 而 不 致 于 使 shell 启 动 
过 程 过 于 复杂 。 更 不 用 说 ， 某 些 应 用 程序 所 需 的 配置 确实 可 能 与 其 他 程序 
的 配置 不 兼容 。 别 起 了 在 每 次 开局 会 话 前 载 入 该 文件 。 


2.2.1 ”安装 Hadoop 


对 于 初学 者 来 讲 ，Hadoop 最 令 人 困惑 的 一 个 方面 在 于 它 众 多 的 组 件 、 工 
程 、 子 工程 ， 以 及 它们 之 间 的 内 在 关系。 事实 上 ， 随 着 时 间 的 推移 ， 这 些 
组 件 都 发 生 了 变化 ， 然 而 却 并 没有 使 这 一 切 变 得 更 容易 理解 。 不 过 ， 从 今 
往 后 ， 访 问 网 站 http://hadoop.apache.org 会 看 到 Hadoop 包 括 曾 提 到 过 的 3 个 主 
要 工程 : 


。 Common 
e HDFS 


e MapReduce 


通过 第 1 章 的 解释 ， 我 们 应 该 对 后 两 项 内 容 较为 熟悉 。Common 工 程 是 
Hadoop 项 目的 核心 部 分 ， 包 括 一 组 运行 库 和 各 种 工具 ， 它 们 帮助 Hadoop 实 
际 运 作 。 目 前 重要 的 是 ， 标 准 的 Hadoop 发 行 版 软件 包含 了 这 3 个 项 目的 最 新 
版 本 ， 它 们 的 组 合 正 是 运行 Hadoop 所 需要 的 。 


各 版 本 的 注意 事项 


从 0.19 到 0.20 版 本 ，Hadoop 发 生 了 重大 的 变化 。 尤 其 是 ， 用 于 开发 
MapReduce 应 用 的 API 迁 移 到 了 一 组 新 API。 本 书 中 ， 我 们 将 主要 使 用 新 
API， 但 是 后 面 的 章节 中 也 包含 了 一 些 旧 API 的 例子 ， 这 是 因为 现在 并 没有 
将 现 有 的 所 有 功能 都 移植 到 新 API。 

自从 0.20 分 支 被 重 命 名 为 1.0，Hadoop 的 版 本 管理 也 变 得 复杂 。0.22 和 0.23 分 
支 仍然 存在 ， 事 实 上 还 包含 了 一 些 1.0 分 支 所 不 包含 的 特性 。 在 写作 本 书 的 
时 候 ， 由 于 1.1 和 2.0 分 支 被 用 作 将 来 的 开发 版 本 ， 所 以 事情 变 得 更 加 清晰 。 
由 于 大 多 数 现 有 的 系统 和 第 三 方 工具 是 针对 0.20 分 支 开 发 的 ， 本 书 中 ， 我 们 
将 使 用 Hadoop 1.0 作 为 例子 。 


2.3 ”实践 环节 ;下载 Hadoop 
执行 以 下 操作 来 下 载 Hadoop。 
1. 访问 Hadoop 下 载 页 面 ， 网 址 为 
http://hadoop.apache.org/common/releases.html ， 获 取 1.0.x 分 文 的 最 新 稳 
定 版 本 。 本 书写 作 时 ， 最 新 稳定 版 为 1.0.4。 


2. 选择 一 个 本 地 镜像 ， 之 后 以 类 似 hadoop-1.0.4-bin.tar.gz 的 名 
字 下 载 文件 。 


3. 如 下 命令 将 文件 拷贝 到 Hadoop 的 安装 路 径 (例如 ，/usr/local 


$ cp Hadoop-1.0.4.bin.tar.gz /usr/local 


4. 使 用 如 下 命令 将 文件 解压 缩 : 


$ tar -xf hadoop-1.0.4-bin.tar.gz 


5. 为 Hadoop 的 安装 路 径 添 加 方便 使 用 的 符号 链接 。 


$ ln -s /usr/local/hadoop-1.0.4 /opt/hadoop 


6. 现在 ， 需 要 将 Hadoop 的 二 进 制 目录 添加 到 PATH 变量 ， 并 设置 
HADOOP HOME 环境 变量 ， 就 如 设置 Java 一 般 。 


$ export HADOOP_HOME=/usr/local/Hadoop 


$ export PATH=$HADOOP_HOME/bin :$PATH 


7. 在 Hadoop 安 装 路 径 下 ， 进 入 conf 目录 并 编辑 Hadoop -env .sh 文件 。 
搜索 JAVA_HOME 并 取消 该 行 的 注释 ， 修 改 其 路 径 使 其 指向 JDK 的 安装 
路 径 ， 如 前 所 述 。 
原理 分 析 


上 述 步 骤 确 休 Hadoop 已 经 安 逆 并 可 通过 命令 行 调 用 。 通 过 设置 path 及 环境 
变量 ， 我 们 可 以 使 用 Hadoop 的 命令 行 工具 。Hadoop 配 置 文件 的 修改 ， 十 安 
装 过 程 所 需 的 唯一 改动 ， 为 的 是 与 主机 设置 相 结合 。 


如 前 所 述 ， 读 者 应 该 把 export 命令 放 入 shell 局 动 文件 ， 或 者 局 动 会 话 时 指 
定 的 独立 配置 脚本 。 


不 要 纠结 于 这 里 讲 到 的 某 些 细节 ， 后 续 内 容 还 会 介绍 Hadoop 的 安装 和 使 
用 o 


2.44 KRAT: 安装 SSH 


执行 下 列 步 又 以 安装 SSH。 
1. 通过 下 列 命令 创建 一 对 OpenSSL 窗 钥 对 : 


$ ssh-keygen 

Generating public/private rsa key pair. 

Enter file in which to save the key (/home/hadoop/.ssh/id rsa): 
Created directory '/home/hadoop/.ssh'. 

Enter passphrase (empty for no passphrase): 

Enter same passphrase again: 


Your identification has been saved in /home/hadoop/.ssh/id rsa. 
Your public key has been saved in /home/hadoop/.ssh/id rsa.pub. 


2. 使 用 下 列 命令 将 新 生成 的 公 钥 复制 至 已 授权 秘 钥 列表 : 


$ cp .ssh/id _rsa.pub .Ssh/authorized_keys 


3. 连接 本 地 主机 。 


$ ssh localhost 

The authenticity of host 'localhost (127.0.0.1)' can't be 
established. 

RSA key fingerprint is 
b6:0c:bd:57:32:b6:66:7c:33:7b:62:92:61:fd:ca:2a. 

Are you sure you want to continue connecting (yes/no)? yes 
Warning: Permanently added 'localhost' (RSA) to the list of known 
hosts. 


4. 人 确认 无 密码 的 SSH 可 以 运行 。 


$ ssh localhost 


$ ssh localhost 


原理 分 析 


由 于 Hadoop 需 要 在 一 台 或 多 台 计 算 机 上 的 多 个 进程 之 间 通 信 ， 我 们 需要 确 
PUERO DN RNC BER En PERO ER 通过 创 
建 有 一 个 至 口令 Secure Shell (SSH) 的 密 钥 对 来 实现 这 一 点 。 我 们 使 用 
ssh-keygen 命令 局 动 这 一 进程 ， 并 接受 所 提供 的 缺 省 设置 


一 旦 创建 了 密 钥 对 ， 需 要 将 新 生成 的 公 和 甸 添 加 到 可 信和 密 钥 的 存储 列表 。 这 
就 意味 着 ， 当 试图 连接 这 人 台 机 器 时 ， 公 钥 会 被 信任 。 然 后 ， 使 用 ssh 命令 
连接 本 地 机 右 ， 应 该 会 获得 一 个 如 上 述 显 示 的 天 于 信任 主机 证 书 的 警告 
确认 后 ， 我 们 应 该 能 够 连接 而 不 再 需要 密码 或 出 现 提 示 。 


提示 :， 请 注意 ， 稍 后 使 用 一 个 完全 分 布 式 模式 的 集群 时 ， 我 们 需要 确保 
集群 中 每 台 主 机 的 Hadoop 用 户 账号 具有 相同 的 密 钥 设置 。 


2.4.1 配置 并 运行 Hadoop 


到 目前 为 止 ， 这 都 非常 简单 ， 只 涉及 下 载 和 系统 管理 。 现 在 ,终于 可 以 和 
Hadoop 打 交道 了 。 我 们 将 运行 一 个 位 单 的 例子 ， 以 表明 Hadoop 正 在 运行 。 
接 下 来 的 步 又 需要 执行 额外 的 配置 和 设置 ， 但 是 也 说 明 到 目前 为 止 ， 所 有 
一 切 安装 和 设置 都 是 正确 的 。 


2.5 “实践 环节 : 使 用 Hadoop 计 算 圆周 率 


现在 ， 我 们 使 用 一 个 人 简单 的 Hadoop 示 例 程序 计算 圆周 率 的 值 。 有 眼下 ， 这 主 
要 是 为 了 验证 安装 ， 同 时 展示 MapReduce 作 业 如 此 之 快 的 执行 速度 。 假 设 
HADOOP_HOME/bin 目录 已 存在 于 用 户 的 PATH 变量 ， 请 键入 以 下 命令 : 


$ Hadoop jar hadoop/hadoop-examples-1.0.4.jar pi 4 1000 

Number of Maps = 4 

Samples per Map = 1000 

Wrote input for Map £0 

Wrote input for Map #1 

Wrote input for Map £2 

Wrote input for Map £3 

Starting Job 

12/10/26 22:56:11 INFO jvm.JvmMetrics: Initializing JVM Metrics with 
processName-JobTracker, sessionId- 

12/10/26 22:56:11 INFO mapred.FileInputFormat: Total input paths to 
process : 4 

12/10/26 22:56:12 INFO mapred.JobClient: Running job: job. 

local 0001 


12/10/26 22:56:12 INFO mapred.FileInputFormat: Total input paths to 
process : 4 
12/10/26 22:56: INFO mapred.MapTask: numReduceTasks: 1 


12/10/26 22:56: INFO mapred.JobClient: map 100% reduce 10096 
12/10/26 22:56: INFO mapred.JobClient: Job complete: job. 
local 0001 

12/10/26 22:56: INFO mapred.JobClient: Counters: 13 

12/10/26 22:56: INFO mapred.JobClient: FileSystemCounters 


Job Finished in 2.904 seconds 
Estimated value of Pi is 3.14000000000000000000 
$ 


原理 分 析 


上 述 例 程 的 输出 包含 了 大 量 信 息 ， 当 在 屏幕 上 获得 完整 的 输出 时 甚至 会 有 
更 多 的 信息 。 现 在 ， 让 我 们 一 步 一 步 进行 分 析 ， 无 需 为 Hadoop 的 状态 输出 
感到 困惑 ， 因 为 后 续 内 容 会 对 它 进行 专门 介绍 。 首 先 要 乔 清 楚 的 是 一 些 术 
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REMH, Se HO I XUNTA J3T S: 
e 局 动作 业 
e 作业 的 执行 状态 
。 作业 结果 的 输出 


在 上 述 例 子 中 可 以 看 到 ， 这 个 作业 创建 了 4 个 任务 来 计算 圆周 率 ， 整 个 作业 
的 结果 将 是 这 些 子 结果 的 组 合 。 这 种 模式 听 起 来 应 该 很 熟悉 ， 与 第 1 章 中 讲 
到 的 类 似 。 这 种 模型 将 一 个 较 大 的 作业 拆 分 成 较 小 的 任务 来 执行 ， 然 后 将 
结 采 整合 起 来 。 


随 着 作业 的 执行 ， 出 现 了 大 部 分 输出 ， 它 们 提供 了 显示 作业 进度 的 状态 消 
息 。 工 作成 功 完 成 后 ， 作 业 将 打印 出 一 些 计 数 器 和 其 他 数据 。 事 实 上 ， 这 
个 例子 的 不 同 寻 第 之 处 在 于 ， 很 少见 到 MapReduce 作 业 的 结果 直接 显示 在 控 
制 台 上 。 这 并 不 是 Hadoop 的 一 个 局 限 性 ， 而 是 由 于 ， 处 理 大 数据 集 的 作业 
通常 会 产生 相当 多 的 输出 数据 ， 并 不 适合 简单 地 在 屏 磋 上 显示 。 


恭喜 你 ， 成 功 地 完成 了 第 一 个 MapReduce 作 业 ! 
3 种 模式 


我 们 渴望 在 Hadoop 上 运行 作业 ， 却 回避 了 一 个 重要 的 问题 ， 应 该 在 何 种 模 
式 下 运行 Hadoop? Hadoop 有 3 种 运行 模式 ， 各 种 模式 下 ，Hadoop 组 件 的 运 
行 场 所 有 所 不 同 。 回 想 一 下 ，HDFS 包 括 一 个 NameNode， 它 充当 着 集群 协 
调 者 的 角色 ， 是 一 个 或 多 个 用 于 存储 数据 的 DataNode 的 管理 者 。 对 于 
MapReduce 而 言 ，JobTracker 是 集群 的 主 和 点 ， 它 负责 协调 多 个 TaskTracker 
进程 执行 的 工作 。Hadoop 以 如 下 3 种 模式 部 署 上 述 组 件 。 


。 本 地 独立 模式 : 像 前 面 计 算 圆周 率 的 例子 一 样 ， 如 果 不 进 行 任何 配置 
的 话 ， 这 是 Hadoop 的 默认 工作 模式 。 在 这 种 模式 下 ，Hadoop 的 所 有 组 


件 ， 如 NameNode、DataNode、JobTracker 和 TaskTracker， 都 运行 在 同 
一 个 Java 进 程 中 。 


伪 分 布 式 模式 ， 在 这 种 模式 下 ，Hadoop 的 各 个 组 件 都 拥有 一 个 单独 的 
Java 虚 拟 机 ， 它 们 之 间 通 过 网 络 套 接 字 通信 。 这 种 模式 在 一 台 主 机 上 有 
效 地 产生 了 一 个 具有 完整 功能 的 微型 集群 。 


完全 分 布 式 模式 : 在 这 种 模式 下 ，Hadoop 分 布 在 多 台 主 机 上 ， 其 中 一 
些 是 通用 的 工作 机 ， 其 余 的 是 组 件 的 专用 主机 ， 比 如 NameNode 和 
JobTracker ° 
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Hadoop 扩 展 到 机 器 集群 的 方式 ， 但 它 需 要 更 多 的 配置 工作 ， 更 不 用 提 所 需 


要 的 机 器 集群 。 本 地 或 独立 模式 的 设置 工作 是 最 简单 的 ， 但 它 与 用 户 的 交 


互 方式 不 同 于 全 分 布 式 模式 的 交互 方式 。 一 般 情 况 下 ， 本 书 更 喜欢 使 用 伪 
分 布 式 模式 ， 即 使 程序 只 需 在 一 台 主 机 上 运行 。 这 是 因为 ，Hadoop 在 伪 分 
布 式 模式 下 执行 的 操作 与 其 在 更 大 的 集群 上 的 运作 几乎 是 相同 的 。 


2.6 ”实践 环节 : 配置 伪 分 布 式 模式 


查看 Hadoop 安 装 包 中 的 conf 目 孙 。 那 里 有 很 多 配置 文件 ， 但 只 需 对 其 中 3 
个 文件 进行 修改 : core-site.xml » hdfs-site.xml 和 mapred- 
site.xml. 


1. 如 下 所 示 ， 修 改 core-site.xml 文件 : 


«?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl" hrefz'configuration.xsl"?» 
«!-- Put site-specific property overrides in this file. --> 
«configuration» 

«property» 

«name»-fs.default.namec/name» 
«value-hdfs://localhost:9000«/value» 

</property> 

</configuration> 


2. 如 下 所 示 ， 修 改 hdfs-site.xml 文件 : 


«?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 


<!-- Put site-specific property overrides in this file. --> 


«configuration» 

«property» 
«name»dfs.replicationc/name» 
«value»1«/value» 

</property> 

</configuration> 


3. 如 下 所 示 ， 修 改 mapred-site,xml 文件 : 


<?xml versionz"1.0"?» 
<?xml-stylesheet type-"text/xsl" hrefz'configuration.xsl'"?- 


«!-- Put site-specific property overrides in this file. --> 


«configuration» 

«property» 
«name»mapred.job.tracker«/name» 
«value»2localhost:9001«/value» 
«/property» 

«/configuration» 


原理 分 析 


首先 ， 请 注意 这 些 配 置 文 件 的 通用 格式 。 显 然 ， 它们 都 是 XML 文 件 ， 单 个 
配置 元 素 包含 有 多 个 属性 说 明 。 


属性 说 明 总 是 包含 名 称 和 值 元 素 ， 可 能 会 有 可 选 注释 ， 这 并 没有 在 前 面 的 
代码 中 展示 。 


在 这 里 ， 我 们 需要 设置 3 个 配置 变量 。 


。 变量 dfs., default .name 你 存 了 NameNode 的 位 置 ，HDFS 和 
MapReduce 组 件 都 需要 它 。 这 就 是 它 出 现在 core-site .xml 文件 中 而 
不 是 hdfs-site.xml 文 件 中 的 原因 。 


。 变量 dfs ,replication 指定 了 每 个 HDFS 数 据 块 的 复制 次 数 。 回 想 一 
下 第 1 章 中 讲述 的 内 容 ，HDFS 确 保 每 个 数据 块 被 复制 到 多 台 不 同 主机 


(通常 是 3 台 ) ， 以 此 方式 处 理 故 障 。 由 于 我 们 只 有 一 台 主 机 和 一 个 伪 
分 布 式 模式 的 DataNode， 将 此 值 修改 为 1。 


。 如同 dfs.default.name 保存 了 NameNode 的 位 置 ， 变 量 
mapred.job.tracker 保存 了 JobTracker 的 位 置 。 因 为 只 有 
MapReduce 组 件 需 要 知道 这 个 位 置 ， 所 以 它 出 现在 mapred-site.xml 
文件 中 。 


提示 : ”当然 ， 读 者 可 以 随意 修改 要 使 用 的 端口 号 ,但 9000 和 9001 是 
Hadoop 的 党 用 默认 端口 。 


NameNode 和 JobTracker 的 网 络 地 址 指定 了 实际 的 系统 请 求 应 当 到 达 的 端 

口 。 这 些 位 置 都 不 面 回 用 户 ， 所 以 不 用 担心 您 的 web 浏览 右 会 指 同 他们 。 不 
久 ， 我 们 将 会 讲解 Web 界 面 。 

配置 根 目录 并 格式 化 文件 系统 


假如 我 们 选择 了 伪 分 布 式 或 完全 分 布 式 模式 ， 在 启动 Hadoop 和 集群 之 前 需要 
执行 两 个 步 又 。 


1. 设置 存储 Hadoop 文 件 的 根 目录 。 
2. 格式 化 HDFS 文 件 系 统 。 


提示 : 准确 地 讲 ， 我 们 不 需要 修改 默认 目录 ， 但 是 稍 后 会 讲 到 ， 最 好 尽 
早 考 虑 这 一 点 。 


27. ”实践 环节 : 修改 HDFS 的 根 目录 


首先 来 设置 HDFS 的 根 目录 ， 它 指定 了 HDFS 在 本 地 文件 系统 保存 其 全 部 数 
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1. 创建 Hadoop 保 存 数 据 的 目录 : 


$ mkdir /var/lib/hadoop 


2. 确保 任何 用 户 都 可 在 此 目录 写 入 数据 : 


$ chmod 777 /var/lib/hadoop 


MN 


3. 再 次 修改 core-site.xml 文 件 ， 添 加 下 列 属性 : 


<property> 

<name>hadoop. tmp.dir</name> 
<value>/var/lib/hadoop</value> 
</property> 


原理 分 析 


由 于 我 们 将 在 Hadoop 中 存储 数据 ， 同 时 所 有 组 件 都 运行 在 本 地 主机 ， 这 些 
数据 都 需要 存储 在 本 地 文件 系统 的 某 个 地 方 。 不 管 选择 了 何 种 模式 ， 
Hadoop 默 认 使 用 hadoop ,tmp . dir 属性 作为 根 目录 ， 所 有 文件 和 数据 都 将 
写 入 该 目录 。 


例如 ，MapReduce 使 用 根 目录 下 的 /mapred 目录 ，HDFS 使 用 /dfs 目录 。 
危险 的 是 ，hadoop .tmp .dir 的 默认 值 为 /tmp ， 一 些 版 本 的 Linux 系 统 会 
在 每 次 重新 启动 时 删除 /tmp 的 内 容 。 所 以 ， 明 确 规定 数据 留存 的 位 置 更 为 


安全 。 
2.8 ”实践 环节 : 格式 化 NameNode 


无 论 是 在 伪 分 布 式 模式 还 是 完全 分 布 式 模式 下 ， 在 首次 局 动 Hadoop 之 前 ， 
都 需要 格式 化 Hadoop 将 要 用 到 的 HDFS 文 件 系 统 。 输 入 如 下 命令 : 


$ hadoop namenode -format 


该 命令 的 输出 应 如 下 所 示 : 


$ hadoop namenode -format 

12/10/26 22:45:25 INFO namenode.NameNode: STARTUP MSG: 
全 
STARTUP_MSG: Starting NameNode 

STARTUP MSG: host - vm193/10.0.0.193 
STARTUP  MSG: args = [-format] 
12/10/26 22:45:25 INFO namenode.FSNamesystem: fsOwner-hadoop,hadoop 
12/10/26 22:45:25 INFO namenode.FSNamesystem: supergroup-supergroup 
12/10/26 22:45:25 INFO namenode.FSNamesystem: isPermissionEnabled-true 


12/10/26 22:45:25 INFO common.Storage: Image file of size 96 saved in 0 
seconds. 

12/10/26 22:45:25 INFO common.Storage: Storage directory 
/var/lib/hadoop- hadoop/dfs/name has been successfully formatted. 
12/10/26 22:45:26 INFO namenode.NameNode: SHUTDOWN MSG: 


REC EK EEEE RKR ORO K EEE ERER EKR RIEA ERER he 


SHUTDOWN_MSG: Shutting down NameNode at vm193/10.0.0.193 
$ 


原理 分 析 


这 并 不 是 一 个 令 人 非常 兴 理 的 输出 ， 因 为 这 个 步 又 只 是 使 我 们 今后 能 够 使 
用 HDFS。 然 而 ， 它 有 助 于 我 们 对 HDFS 的 理解 ， 它 只 是 一 个 文件 系统 ， 没 
有 什么 神秘 的 。 就 像 使 用 任何 操作 系统 的 任何 新 的 存储 设备 之 前 ， 我 们 都 
需要 对 其 进行 格式 化 操作 。HDFS 同 样 如 此 ， 最 初 有 一 个 默认 的 存放 文件 系 
统 数 据 的 位 置 ， 但 没有 等 同 于 文件 系统 索引 的 实际 数据 。 


提示 : 每 次 都 需要 执行 格式 化 ! 

假如 你 的 Hadoop 和 我 的 类 似 ， 在 重新 安 淡 Hadoop 的 时 候 ， 经 第 会 犯 一 系 
列 的 简单 错误 。 因 为 很 容易 瑟 记 格式 化 NameNode， 于 十 台 会 在 第 一 次 稳 
试 使 用 Hadoop 的 时 候 收 到 一 系列 故障 信息 。 

但 只 执行 一 次 格式 化 ! 

格式 化 NameNode 的 命令 可 以 执行 多 次 ， 但 是 这 样 会 使 所 有 的 现 有 文 件 系 
统 数 据 受 损 。 只 有 在 Hadoop 集 群 关 财 和 你 想 进行 格式 化 的 情况 下 ， 才 能 
执行 格式 化 。 但 在 其 他 大 多 数 情况 下 ， 格 式 化 操作 会 快速 、 不 可 恢复 地 
Z VÒ | 

局 动 并 使 用 Hadoop 
在 完成 所 有 安装 及 配置 步骤 之 后 ， 现 在 局 动 集群 并 用 它 实 际 做 一 些 事情 。 


2.9 ”实践 环节 : 局 动 Hadoop 


在 本 地 模式 中 ， 所 有 Hadoop 组 件 只 在 作业 的 生命 周期 运行 ， 伪 分 布 式 或 者 
全 分 布 式 模式 的 Hadoop 集 群 则 与 此 不 同 ， 其 组 件 以 长 期 运行 的 进程 的 形式 


X8 


存在 。 在 使 用 HDFS 或 MapReduce 之 前 ， 需 要 事先 启动 所 需 组 件 。 键 入 以 下 
命令 ， 输 出 应 该 如 下 所 示 (其 中 命令 以 $ 为 前 级 ) 


1. 输入 第 一 个 命令 


$ start-dfs.sh 

starting namenode, logging to /home/hadoop/hadoop/bin/../logs/ 
hadoop-hadoop-namenode-vm193.out 

localhost: starting datanode, logging to /home/hadoop/hadoop/ 
bin/../logs/hadoop-hadoop-datanode-vm193.0out 

localhost: starting secondarynamenode, logging to /home/hadoop/ 
hadoop/bin/../logs/hadoop-hadoop-secondarynamenode- vm193.0ut 


2. 输入 第 二 个 命令 


$ jps 

9550 DataNode 

9687 Jps 

9638 SecondaryNameNode 
9471 NameNode 


3. 输入 第 三 个 命令 : 


$ hadoop dfs -ls / 

Found 2 items 

drwxr -xr -x -hadoop supergroup © 2012-10-26 23:03 /tmp 
drwxr -xr -x -hadoop supergroup © 2012-10-26 23:06 /user 


4. 输入 第 四 个 命令 : 


$ start-mapred.sh 

starting jobtracker, logging to 
/home/hadoop/hadoop/bin/../logs/hadoop-hadoop-jobtracker-vm193.0out 
localhost: starting tasktracker, logging to 
/home/hadoop/hadoop/bin/../logs/hadoop-hadoop-tasktracker-vm193.0out 


5. 输入 第 五 个 命令 : 


$ jps 


9550 DataNode 

9877 TaskTracker 

9638 SecondaryNameNode 
9471 NameNode 

9798 JobTracker 


9913 Jps 


原理 分 析 


顾名思义 ，start-dfs. sh 命令 启动 HDFS 的 必要 组 件 。 这 些 组 件 包括 管 
理 文 件 系统 的 NameNode 和 一 个 保存 数据 的 DataNode。SecondaryNameNode 
是 一 个 可 用 性 辅助 程序 ， 我 们 将 在 后 面 的 章 记 讨论 它 。 

局 动 这 些 组 件 后 ， 我 们 使 用 JDK 的 jps 工具 查看 哪个 Java 进 程 正在 运行 。 从 
B une 我 们 随后 使 用 Hadoop 的 dfs 工具 列 出 HDFS 文 件 
MILH’ RE d? 


在 此 之 后 ， 我 们 使 用 start-mapred.sh 局 动 MapReduce 的 组 件 ， 这 次 会 
局 动 JobTracker 和 一 个 TaskTracker， 然 后 再 次 使 用 jps 来 验证 结果 。 


在 稍 后 阶段 ， 我 们 还 将 使 用 一 个 组 合 的 start-all. sh 文件 。 但 在 初期 ， 
执行 两 阶段 的 局 动 是 非常 有 用 的 ， 这 样 更 容易 检验 集群 的 配置 是 否 正 确 。 


2.10 ”实践 环节 : 使 用 HDFS 


如 前 面 例子 所 示 ，HDFS 提 供 了 一 套 看 似 熟悉 的 接口 ， 用 户 可 以 使 用 类 似 于 
Unix 系 统 的 命令 ， 来 操作 文件 系统 上 的 文件 和 目录 。 键 入 以 下 命令 试验 一 


下 。 
输入 下 列 命令 : 


$ hadoop -mkdir /user 

$ hadoop -mkdir /user/hadoop 

$ hadoop fs -ls /user 

Found 1 items 

drwxr-xr-x - hadoop supergroup 0 2012-10-26 23:09 /user/Hadoop 
$ echo "This is a test." »» test.txt 


$ hadoop dfs -ls 
Found 1 items 


-rw-r--r-- 1 hadoop supergroup 16 2012-10-26 23:19/user/hadoop/ 
test.txt 

$ hadoop dfs -cat test.txt 

This is a test. 

$ rm test.txt 

$ hadoop dfs -cat test.txt 

This is a test. 

$ hadoop fs -copyToLocal test.txt 

$ cat test.txt 

This is a test. 


原理 分 析 


这 个 例子 展示 了 Hadoop 实 用 工具 中 的 fs 子 命令 的 用 法 。 请 注意 ，dfs 和 fs 
命令 是 相同 的 。 像 大 多 数 文件 系统 一 样 ，Hadoop 为 每 个 用 户 保留 一 个 主 目 
录 。 这 些 主 目录 都 位 于 HDFS 上 的 /user 路 径 下 。 在 继续 深入 之 前 ， 假 如 主 
目录 不 存在 的 话 ， 我 们 需要 上 自己 创建 主 目录 。 


然后 ， 在 本 地 文件 系统 创建 一 个 简单 的 文本 文件 ， 并 使 用 copyFromLocal 

命令 将 其 复制 到 HDFS， 并 通过 -ls 和 -cat 实用 程序 来 检查 文件 是 否 存 在 

并 查看 其 内 容 。 在 Unix 系 统 中 ， 未 市 参数 的 -1s 命令 指 十 是 用 户主 目录 ， 

(不 以 / FA) 指 的 也 是 那个 位 置 ， 因 此 ， 不 难看 出 ， 用 户主 目录 
up E. o 


然后 ， 从 本 地 文件 系统 删除 文件 ， 使 用 - copyToLocal 命令 从 HDFS 将 其 
复制 回 到 本 地 文件 系统 ， 用 本 地 cat 工具 检查 其 内 容 。 


提示 :， 如 上 述 例 子 所 示 ， 混 合 使 用 HDFS 和 本 地 文件 系统 命令 十 分 强大 ， 
很 容易 在 HDFS 上 执行 原本 为 本 地 文件 系统 设计 的 命令 ， 反 之 亦 然 。 所 
以 ， 要 多 加 小 心 ， 尤 其 是 在 删除 文件 的 时 候 。 


还 有 一 些 HDFS 的 操作 命令 ， 试 着 用 hadoop fs -help 来 获取 详细 列表 。 


2.11 ”实践 环节 MapReduce 的 经 典 入 门 程序 一 _ 字 
数 统计 
随 着 时 间 的 推移 ， 许 多 应 用 程序 都 有 一 个 经 典 例子 ， 它 是 所 有 初学 者 指南 


都 要 用 到 的 。 对 Hadoop 而 言 ， 这 就 是 字数 统计 程序 WordCount 一 一 一 个 
Hadoop 目 带 的 例子 ， 它 用 来 统计 一 个 输入 文本 文件 中 每 个 词 的 出 现 频率 。 


1: BRIT PAR: 


$ hadoop dfs -ls data 
Found 1 items 
-rw-r--r-- 


2. 现在 执行 这 些 命令 : 


process : 1 

12/10/26 23:22:50 INFO 
job 201210262315 0002 
12/10/26 23:22:51 INFO 
12/10/26 23:23:03 INFO 
12/10/26 23:23:15 INFO 
12/10/26 23:23:17 INFO 
job 201210262315 0002 
12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
tasks-1 

12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
tasks-1 

12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
records-4 

12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
bytes-46 

12/10/26 23:23:17 INFO 
records-4 

12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
records-4 

12/10/26 23:23:17 INFO 
12/10/26 23:23:17 INFO 
records-4 


$ hadoop dfs -mkdir data 
$ hadoop dfs -cp test.txt data 


1 hadoop supergroup 
user/hadoop/data/test.txt 


mapred. 


mapred 


mapred. 


mapred 
mapred 


mapred. 


mapred 


mapred. 


mapred 
mapred 


mapred. 


mapred 
mapred 


mapred. 


mapred 
mapred 


mapred. 


mapred 


mapred. 


mapred 


mapred. 


mapred 
mapred 
mapred 


mapred 
mapred 


$ Hadoop Hadoop/hadoop-examples-1.0.4.jar 
12/10/26 23:22:49 INFO input.FileInputFormat: Total input paths to 


JobClient: 


. JobClient: 
JobClient: 
. JobClient: 
. JobClient: 


JobClient: 
.JobClient: 
JobClient: 


.JobClient: 
.JobClient: 


JobClient: 
. JobClient: 
. JobClient: 
JobClient: 
. JobClient: 
. JobClient: 
JobClient: 
. JobClient: 


JobClient: 
.JobClient: 


JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 


.JobClient: 
.JobClient: 


16 2012-10-26 23:20 / 


wordcount data out 


Running job: 


map 0% reduce 0% 
map 100% reduce 096 
map 100% reduce 10096 


Job complete: 


Counters: 17 


Job Counters 
Launched reduce 


Launched map tasks-1 
Data-local map 


FileSystemCounters 

FILE BYTES READ-46 

HDFS BYTES READ-16 

FILE BYTES  WRITTEN-124 
HDFS BYTES WRITTEN-24 
Map-Reduce Framework 
Reduce input groups-4 
Combine output 


Map input records-1 
Reduce shuffle 


Reduce output 
Spilled Records-8 
Map output bytes-32 


Combine input 


Map output records-4 
Reduce input 


3. ATE Pip: 


$ hadoop fs -ls out 

Found 2 items 

drwxr -xr -x - hadoop supergroup 0 2012-10-26 23:22 / 
user/hadoop/out/ logs 

-rw-r--r-- 1 hadoop supergroup 24 2012-10-26 23:23 / 
user/hadoop/out/part-r-00000 


4. 现在 执行 这 个 命令 


$ hadoop fs -cat out/part-0-00000 
This 1 


原理 分 析 


刚才 ， 我 们 做 了 如 下 3 件 事情 : 

。 将 之 前 创建 的 文本 文件 移 到 HDFS 的 一 个 新 路 径 下 

。 以 上 述 新 路 径 和 一 个 不 存在 的 输出 路 径 为 参数 ， 运 行 WordCount 例 程 ; 

。 使 用 fs 程序 检查 MapReduce 作 业 的 输出 。 
如 前 所 述 ， 伪 分 布 式 模式 有 着 更 多 的 Java 进 程 ， 那 么 字数 统计 作业 的 输出 明 
显 短 于 独立 模式 下 计算 圆周 率 的 作业 ， 这 点 看 似 奇 怪 。 原 因 在 于 ， 
立 模 式 将 每 个 单独 任务 执行 的 信息 都 打印 在 屏幕 上 ， 而 在 其 他 模式 下 ， 
些 信 息 只 被 写 入 运行 主机 的 日 志文 件 中 。 
输出 路 径 由 Hadoop 目 己 创 建 ， SERIA AR OCTEIESY part-nnnnBJ2 JE ° 虽然 


由 于 我 们 设置 的 原因 ， 仅 有 一 个 结 采 文件 。 我 们 使 用 fs -cat 命令 来 检查 
文件 ， 结 末 和 预期 一 致 。 


提示 :， 如 果 指 定 一 个 已 有 目录 作为 Hadoop 作 业 的 输出 路 径 ， 作 业 将 无 法 
运行 ， 并 会 抛 出 异常 抗议 一 个 已 经 存在 的 目录 。 如 果 想 让 Hadoop 将 输出 

存储 到 一 个 目 隶 ， 它 必须 是 不 存在 的 目录 。 把 这 个 特点 当做 Hadoop 的 一 

种 安全 机 制 ， 它 可 以 防止 Hadoop 重 写 有 用 的 文件 以 及 用 户 总 是 未 记 乔 清 
的 事 。 后 面 将 会 讲 到 ， 如 果 用 户 有 足够 信心 ， 也 可 以 覆盖 这 种 方式 。 


圆周 率 和 字数 统计 程序 只 是 Hadoop 附 带 例子 的 一 小 部 分 。 下 面 是 如 何 获得 
全 部 例子 列表 的 方法 。 看 看 你 能 否 理解 其 中 部 分 内 容 。 


一 展 身手 : 在 更 大 规模 的 文本 上 进行 字数 统计 


运行 如 此 复杂 的 Hadoop 框 染 ， 利 用 5 个 分 立 的 Java 进 程 来 统计 一 个 单行 文本 
文件 的 字数 ， 并 不 会 给 人 留 下 非常 深刻 的 印象 。Hadoop 令 人 晨 惊 的 力量 源 
自 一 个 事实 ， 即 我 们 可 以 使 用 完全 相同 的 程序 对 一 个 较 大 的 文件 进行 字数 

统计 ， 甚 至 是 分 布 在 多 个 节点 组 成 的 Hadoop 集 群 上 的 庞大 语料库 文本 。 处 
理 这 种 任务 时 ， 执 行 的 命令 和 刚才 完全 相同 : 运行 字数 统计 程序 并 指定 源 

数据 和 输出 数据 目 邓 的 位 置 。 


找 一 个 大 型 在 线 文 本 文件 ， 位 于 http://www.gutenberg.org 的 Gutenberg 项 目 就 
是 一 个 很 好 的 案例 ， 把 它 拷贝 到 HDFS 并 执行 WordCount 例 程 来 对 它 进 行 字 
数 统 计 。 输 出 可 能 会 与 您 的 预期 有 所 不 同 ， 因 为 在 一 大 段 文 字 中 ， 脏 数 

据 、 标 点 符号 和 格式 问题 都 需要 解决 。 想 想 应 当 如 何 改进 wordCount， 我 们 
将 在 下 一 章 人 研究 如 何 将 其 扩展 到 一 个 更 复杂 的 处 理 链 。 


通过 浏 览 器 查看 Hadoop 活动 

截至 目前 ， 我 们 一 直 依靠 命令 行 工 具 和 直接 的 命令 输出 来 观察 系统 的 运行 
状况 。Hadoop 提 供 了 两 个 你 应 当 熟 练 使 用 的 网 络 接口 : 一 个 用 于 HDFS， 男 
一 个 用 于 MapReduce。 两 者 对 伪 分 布 式 Hadoop 和 全 分 布 式 Hadoop 意 义 重 

K, DHE 4 HBHadoopZ X 8 X 。 


HDFS 网 络 用 户 接口 


m4 


将 浏览 器 指向 运行 着 Hadoop 主 机 的 50030 端 口 。 默认 情况 下 ，Web 界 面 对 于 
本 地 主机 和 具有 网 络 访问 权限 的 任何 其 他 机 器 器 都 是 可 用 的 。 下 面 是 一 个 截 


" ven 
G zele 10.0.0.179 


De Ge Ym ryote p teb 
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-Oee 于 个 本 co mo m 76m Qe) 6m De 


* | E Vere yn Web... | S Nee Tab 


Started: 545 BST 2! 
Version: 202r il 

Compiled: Fri Feb 1908.07 24 UTC 2010 by chi 
Upgrades: There are no upgrade fogress 


Browse the filesystem 
Namenode Logs 


Cluster Summary 


Safe mode is ON, The ratio of reported blocks 0.0000 has not reached the threshold 0,9990. Safe mode will be turned off 


19 files and directories, 7 ecke total Heap Size is 15.31 MB / 966.69 MB (1%) 


Configured Capacity 
DFS Used JKB 
Non DFS Used OKB 
DFS Remaining 0 KB 
DFS Used% 100% 
DFS Remaining 0*5 
Live Nodes 0 
Dead Nodes 
a There He no datenodes in the cluster 过 
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文 个 接口 包含 了 很 多 信息 ， 但 我 们 可 以 通过 一 些 关 键 数据 直观 地 获悉 集群 
的 节点 数 、 文 件 系统 的 大 小 、 已 用 空间 以 及 用 于 获取 更 多 信息 甚至 浏览 束 
个 文件 系统 的 链接 。 


读者 需要 论 些 时 间 来 慢 慢 熟悉 这 个 接口 ， 这 是 很 有 必要 的 。 在 一 个 多 节点 


的 集群 中 ， 活 跃 节点 和 死亡 节点 的 信息 ， De cle 点 的 详细 的 历史 状态 
信息 对 于 调试 集群 故障 起 着 关键 作用 。 


。 MapReduce 的 网 络 用 户 接口 


JobTracker 网 络 用 户 接口 的 软 认 端口 是 50070， 前 面 讲 的 访问 规则 同样 适用 
于 此 。 下 面 是 一 个 截图 示例 : 


TU < 
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t» Lan 10.0.0.193 习 ex n 
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localhost Hadoop Map/Reduce Administration 


Cluster Summary (Heap Size is 15.31 MB/966.69 MB) 


Maps Reduces Total Submissions Nodes Map Task Capacity Reduce Task Capacity Avg. Tasks/Node Blacklisted Nodes 
Ò 0 1 1 ) e] 1 00 


Scheduling Information 


Queue Name Scheduling Information 
defaut N/A 


Fifer (Jobid, Priority, User, Name) | 
Esme usor emah 3200 wii filter by "ema onby in the uper feld and S200 in all felde E 
* » 
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它 比 HDFS 接 口 更 为 复杂 ! 除了 类 似 的 活路 市 点 、 死 亡 节 后 数量 外 ， 它 还 所 
供 了 局 动 以 来 已 执行 的 作业 数 ， 以 及 每 个 作业 拆 分 的 任务 数 。 


正在 执行 的 作业 和 已 完成 作业 列表 通常 能 够 提供 更 多 信息 。 对 每 个 作业 来 
讲 ， 我 们 可 以 访问 每 个 任务 在 每 个 节点 上 的 运行 情况 ， 可 以 访问 包含 更 详 
细 信 筷 的 日 志 。 现 在 ， 我 们 将 揭示 一 个 任何 分 布 式 系统 都 存在 的 令 人 非 稼 
头疼 的 问题 : 调试 。 在 分 布 式 系统 上 进行 调试 真 的 是 非常 困难 。 


假设 你 试图 使 用 100 台 机 需 组 成 的 集群 处 理 巨大 的 数据 集 ， 其 中 每 台 主 机 都 
要 执行 数 百 个 map 和 reduce 任 务 。 如 采 作 业 开 始 缓慢 地 运行 或 出 现 了 明显 的 
失败 ， 问 题 出 在 什么 地 方 通常 并 不 明显 。 查 看 MapReduce 的 网 页 用 户 接 口 很 
可 能 是 诊断 问题 的 第 一 站 ， 因 为 该 接口 提供 的 丰富 信息 是 调查 正在 运行 的 
作业 和 已 完成 作业 的 入 手 点 。 


2.12 ”使 用 弹性 MapReduce 


现在 ， 我 们 转 去 云端 Hadoop 由 Amazon Web Services 提 供 的 弹性 
MapReduce 服 务 。 有 多 种 访问 EMR 的 方法 ， 但 现在 ， 我 们 会 专注 于 亚马逊 
提供 的 Web 控 制 台 。Web 挥 制 台 使 用 完全 点 击 式 的 Hadoop 操 作 方 法 ， 与 之 前 
使 用 命令 行 的 操作 方式 形成 了 鲜明 对 比 。 


创建 Amazon Web Services 账 号 


在 使 用 弹性 MapReduce 之 前 ， 需 要 创建 一 个 Amazon Web Services 账 号 并 用 
它 注册 必需 的 服务 。 


1. 创建 AWS 账 号 


Amazon 通 用 账号 已 经 集成 了 AWS 服 务 ， 也 就 是 说 ， 如 果 读 者 已 经 有 了 任意 
一 个 Amazon 和 零售 网 站 的 账号 ， 用 它 即 可 访问 AWS 服 务 。 


需要 注意 的 是 ，AWS 服 务 是 付费 服务 ， 用 户 需 要 将 有 效 的 信用 卡 与 其 
Amazon 账 号 绑 定 ， 费 用 将 由 此 信用 卡 文 付 。 


如 果 读 者 需要 一 个 新 的 Amazon 账 号 ， 访 问 http://aws.amazon.com ， 选 

择 “create a new AWS account”， 并 按照 提示 操作 。Amazon 已 经 增加 了 一 个 
免费 服务 层 ， 所 以 读者 可 能 发 现 ， 在 初期 的 测试 和 探索 阶段 ， 许 多 活动 都 
是 在 非 付 费 层 进行 的 。 人 免费 层 的 范围 已 经 扩大 ， 所 以 要 确信 你 知道 哪些 是 
收费 的 以 及 哪些 是 免费 的 。 


2. 注册 必需 的 服务 


有 了 一 个 Amazon 账 号 之 后 ， 需 要 用 它 注 册 要 用 到 的 AWS 服 务 : 简单 存储 服 
4& (S3) 、 弹 性 计算 云 (EC2) 和 弹性 MapReduce (EMR) 。 单 纯 注 册 任 何 
AWS 服 务 都 是 不 收费 的 ， 这 个 过 程 只 是 让 您 的 账号 可 以 使 用 这 些 服务 o 


从 http://aws.amazon.com 页 面 的 链接 转 到 S3、EC2、EMR 页 面 ， 并 点 击 每 个 
页 面 上 的 “Sign up” 按 钮 ， 然 后 按照 提示 操作 。 


提示 : 注意 ! 这 些 付费 服务 花 掉 的 是 真 金 日 银 | 


在 进一步 讨论 之 前 ， 重 要 的 是 要 明白 : 使 用 AWS 服 务 将 产生 费用 ， 这 些 
费用 将 出 现在 您 的 Amazon 账 号 关联 的 信用 卡 。 大 部 分 费用 是 很 少 的 ， 它 
会 随 着 消耗 的 基础 设施 量 而 增加 。 在 S3， 存 储 10 GB 数 据 的 费用 是 存储 1 
GB 数据 的 10 倍 以 上 ;运行 20 个 EC2 实 例 的 费用 和 将 一 个 实例 运行 20 次 的 
费用 相当 。Amazon 有 一 个 层次 收费 模型 ， 所 以 实际 成 本 趋同 在 较 高 层次 
产生 较 小 的 边际 增幅 。 但 是 ， 你 应 该 在 使 用 任何 服务 之 前 ， 仔 细 阅 读 每 
个 服务 的 定价 部 分 。 还 请 注意 ， 目 前 将 数据 从 AWS 服 务 (如 EC2 和 S3) 
移出 是 收费 的 ， 而 在 这 些 服务 之 间 转 移 数 据 是 不 收费 的 。 这 就 意味 着 ， 
认真 设计 AWS 的 使 用 ， 在 尽 可 能 多 的 数据 处 理 环节 将 数据 保留 在 AWS ， 
往往 是 最 具 成 本 效 葵 的 。 


2.13 ”实践 环节 : 使 用 管理 控制 台 在 EMR 运 行 
WordCount 


让 我 们 直接 跳 到 EMR 的 例子 ， 它 使 用 了 一 些 目 市 的 示例 代码 。 执 行 下 列 步 


Jk o 


1. 浏览 网 页 http://aws.amazon.com ， 访 问 Developers | AWS Management 
Console ， 然 后 点 击 Sign in to the AWS Console 按钮 。 默 认 视 图 应 该 与 
下 图 类 似 。 人 否则 ， 点 击 Amazon S3。 
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2. 如 以 上 截图 所 示 ， 点 击 “Create bucket” 按 钮 并 输入 新 建 桶 的 名 称 。 桶 的 
名 称 对 所 有 AWS 用 户 都 是 全 局 唯一 的 ， 因 此 一 些 很 明显 的 名 称 必然 是 
不 可 用 的 ， 如 mybucket 或 s3test 。 


3. 点击 Region 下 拉 菜 单 并 选择 最 近 的 地 理 区 域 。 


Create a Bucket - Select a Bucket Name and Region Cancel X 


t Amazon S3 documentation 


Bucket Name: gerrytluse 
Region: 


SetUpLogging» Create Cancel 


4. 点 击 Elastic MapReduce 链接 并 点 击 Create a new Job Flow 按钮 。 你 将 
看 到 类 似 下 列 截图 的 页 面 。 


Create a New Job Flow Cansei [a 
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5. 现在 ， 应 该 看 到 类 似 上 述 截 图 的 页 面 。 选择 Run a sample application 
单 选 按钮 ， 从 示例 程序 下 拉 框 选择 Word Count (Streaming) 菜单 ， 点 
击 Continue 按钮 。 
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6. 如 以 上 截图 所 示 ， 下 一 步 的 屏幕 允许 用 户 指 定 作 业 的 输出 位 置 。 在 输 
出 位 置 文本 框 中 ， 和 输入 步骤 1 创建 的 桶 的 名 称 (这 里 使 用 的 桶 的 名 称 为 
garryt1use ) ， 然 后 点 击 Continue 按钮 。 


Create a New Job Flow 


7. 在 下 一 步 的 页 面 中 ， 用 户 可 以 修改 作业 所 用 虚拟 主机 数 及 其 规格 。 确 
保 每 个 组 合 框 的 实例 类 型 为 Small (mi.small) ， 核 心 组 的 节点 数量 为 2 
， 任 务 组 的 节点 数量 为 0。 然 后 点 击 Continue 按钮 。 


Create a New Job Flow 


8.“ 下 一 步 * 的 截图 包含 了 一 些 本 例 中 用 不 到 的 一 些 选 项 。 对 于 Amazon 
EC2 key pair 区 域 ， 选 择 Proceed without key pair 末 单 ， 对 于 Enable 
Debugging 区 域 ， 选 择 No 。 确 保 Keep Alive 单 选 按钮 被 设 为 No 并 单 击 
Continue 按钮 。 


Create à New Job How 


9. 如 上 图 所 示 ， 用 户 现 在 并 不 需要 在 “下 一 步 ”* 页 面 做 太 多 工作 。 确 认 


Proceed with no Bootstrap Actions 单 选 按钮 被 选中 并 点 击 Continue 按 
钮 。 


Create a New Job Flow 


Coso ubl 出 


10. 确认 作业 流 的 设置 与 预期 一 致 ， 点 击 Create Job Flow 按钮 。 之 后 点 击 
View my Job Flows 和 check status 按钮 。 这 样 会 列 出 用 户 的 所 有 作业 
流 ， 用 户 可 算 选 只 显示 正在 运行 的 作业 或 已 结束 的 作业 。 黑 认 设 置 是 
显示 所 有 作业 ， 如 同 下 图 所 示 。 
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11. 不 时 地 点 击 Refresh 按钮 ， 直 到 列 出 的 作业 状态 从 Running 或 Starting 
变 为 Complete ， 然 后 点 击 其 复 选 框 查看 作业 流 的 详情 ， 如 下 图 所 示 。 
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2. 点 击 S3 TTA JE ERE EH DLL PT GU REB] RR. o ORPHEUS — TER 
为 wordcount 的 入 口 ， 这 是 一 个 路 径 。 


右 击 它 并 选择 Open 。 然 后 重复 
上 述 动 作 直 至 看 到 真实 文件 的 列表 ， 它 们 遵守 类 似 Hadoop 的 part-mnnnmn 
命名 规则 ， 如 下 图 所 示 。 
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右 击 并 打开 part-00000 。 它 应 该 看 起 来 与 下 列 内 容 类 似 : 


abandoned 46 
abandonment 6 
abate 

abauj 3 
abbassid 4 
abbes 3 
abbl 3 


这 种 类 型 的 输出 看 起 来 是 不 是 有 点 熟悉 ? 
原理 分 析 


第 1 个 步骤 是 针对 S3 进 行 的 ， 而 非 EMR。S3 是 一 个 可 扩展 的 存储 服务 ， 它 允 
许 用 户 在 叫做 桶 的 容器 内 存储 文件 〈 称 为 对 象 ) ， 并 使 用 桶 和 对 象 的 键 
(也 就 是 名 称 ) 来 访问 对 象 。 该 模型 类 似 于 文件 系统 的 使 用 情况 ， 虽 然 也 
有 潜在 的 差异 ， 但 这 些 区 别 在 本 书 中 并 不 重要 。 


S3 是 放置 MapReduce 程 序 及 待人 处 理 的 源 数据 的 地 方 ， 也 是 存储 输出 数据 及 
EMR Hadoop 作 业 日 志 的 地 方 。 有 大 量 的 第 三 方 工具 可 以 访问 S3， 但 在 这 里 
我 们 使 用 AWS 管 理 控制 台 ， 它 是 访问 大 多 数 AWS 服 务 的 浏览 器 界 面 。 


虽然 我 们 建议 用 户 为 $3 选择 最 近 的 地 理 区 域 ， 但 这 不 是 必需 的 。 美 国之 外 
的 地 区 ，Amazon 通 常会 为 接近 它们 的 客户 提供 较 小 的 延迟 ， 但 用 户 也 往往 
需要 支付 略 高 的 费用 。 在 什么 地 方 托 管 数据 和 应 用 程序 ， 需 要 用 户 综合 考 
虑 所 有 因素 后 决定 。 


创建 3 存储 桶 后 ， 我 们 转 到 EMR 控 制 台 并 创建 了 一 个 新 的 作业 流 。 在 
EMR， 这 个 术语 用 来 指 代 一 个 数据 处 理 任务 。 正 如 我 们 将 要 看 到 的 ， 它 可 
以 是 一 个 一 次 性 作业 ， 底 层 的 Hadoop 集 群 按 需 创 建 和 销毁 ;也 可 以 是 一 个 
长 期 运行 的 集群 ， 在 它 上 面 执行 着 多 个 作业 。 


我 们 保留 了 了 默认 的 作业 流 名 称 ， 然 后 选择 使 用 一 个 示例 应 用 程序 。 在 这 
个 案例 中 ， 示 例 程序 是 用 Python 实现 的 字数 统计 程序 WordCount。Hadoop 
Streaming 是 指 一 种 机 制 ， 它 允许 使 用 脚本 语言 编写 map 和 reduce 任 务 ， 但 功 
能 与 我 们 先前 使 用 的 Java 字 数 统计 程序 相同 。 


配置 作业 流 的 表单 需要 填写 源 数据 和 程序 的 位 置 ，map 和 reduce 类 的 位 置 及 
所 需 的 输出 数据 的 位 置 。 对 于 我 们 刚刚 看 到 的 这 个 例子 ， 大 多 数 区 域 都 是 
预 完 填 好 的 ， 可 以 看 出 ， 这 与 在 命令 行 中 运行 本 地 Hadoop 所 需 的 内 容 ， 有 
明显 的 相似 之 处 。 


通过 不 选择 Keep Alive 选项 ， 我 们 创建 了 一 个 一 次 性 Hadoop 集 群 ， 它 专门 
为 执行 本 作业 而 创建 ， 作 业 完 成 后 就 会 被 销毁 。 这 类 集群 的 启动 时 间 较 

长 ， 但 会 最 大 限度 地 降低 成 本 。 如 有 果 您 选择 保持 作业 流 活 跃 ， 你 会 看 到 更 
多 的 作业 被 更 迅速 地 执行 ， 因 为 你 不 必 等 竺 集群 启动 。 但 是 你 需要 为 EC2 基 
础 资源 支付 费用 ， 直 到 明确 地 终止 该 作业 流 。 


在 确认 之 后 ， 我 们 不 需要 添加 任何 附加 的 启动 选项 。 我 们 选择 了 希望 部 署 
在 Hadoop 集 群 的 主机 类 型 和 主机 数 。EMR 有 3 组 不 同 的 主机 。 


。 主 实例 组 : 这 是 一 个 承载 着 NameNode 和 JobTracker 的 控制 节点 。 主 实 
例 组 中 只 有 1 个 这 样 的 节点 。 

。 核心 实例 组 : 这 些 实例 是 运行 着 HDFS DataNode 和 MapReduce 
TaskTracker 的 节点 。 这 些 主机 的 数量 是 可 配置 的 。 


。 任 务实 例 组 : 这 些 主机 不 持 有 HDFS 数 据 ， 却 运行 TaskTracker， 并 能 提 
供 更 多 的 处 理 能 力 。 主 机 的 数量 是 可 配置 的 。 


主机 类 型 代表 着 不 同 级 别 的 硬件 能 力 ， 详 细 内 容 可 在 EC2 页 面 上 找到 。 较 大 
的 主机 有 较 强 的 运算 能 力 ， 同 时 价格 也 较 高 。 目 前 ， 稚 认 情 况 下 ， 一 个 作 


业 流 的 主机 总 数 一 定 小 于 等 于 20 个 ， 但 亚马逊 有 一 种 简单 的 形式 可 以 申请 
更 高 的 限制 。 


确认 后 ， 一 切 都 如 预期 ， 我 们 局 动作 业 流 并 在 控制 台 上 查看 其 运行 状况 ， 
直到 状态 变 为 COMPLETED 。 这 时 ， 我 们 回 到 S3， 碍 看 由 我 们 指定 的 作为 
输出 目标 的 桶 ， 并 检查 字数 统计 作业 的 输出 。 它 应 当 与 本 地 Hadoop 的 字数 
统计 的 输出 看 起 来 非常 相似 。 


一 个 明显 的 问题 是 ， 源 数据 来 自 哪里 ? 这 是 作业 流 设 置 中 的 一 个 预 填 充 字 
段 ， 我 们 在 创建 作业 流 的 过 程 中 看 到 过 。 对 于 非 持久 性 的 作业 流 ， 最 常见 
的 模型 是 ， 从 一 个 指定 的 S3 源 位 置 读 取 数 据 并 将 所 得 到 的 数据 写 入 到 指定 
的 结果 S3 桶 中 。 

这 就 是 AWS 管 理 控制 台 ! 它 允 许 用 户 通过 浏览 器 对 服务 (如 S3 和 EMR) 进 
行 细 粒度 的 控制 。 仅 需 拥 有 一 个 浏览 器 和 一 张 信 用 卡 ， 我 们 就 可 启动 
Hadoop 作 业 来 处 理 数据 ， 无 需 担 心安 装 、 运 行 、 管 理 Hadoop 的 任何 机 制 问 


题 。 


EGF: 其 余 EMR 示 例 程序 
EMR 提 供 了 其 他 几 个 示例 应 用 程序 ， 为 什么 不 同时 试 试 它们 呢 ? 
2.13.1 使 用 EMR 的 其 他 方式 
虽然 AWS 管 理 控 制 台 是 一 个 强大 的 和 令 人 印象 深刻 的 工具 ， 它 并 不 总 是 我 


们 想 要 用 来 访问 53 和 运行 EMR 作 业 的 方式 。 如 同 所 有 的 AWS 服 务 ， 用 户 可 
通过 可 编程 的 工具 或 命令 行 工 具 来 使 用 这 些 服 务 。 


1. AWS 证 书 


然而 ， 在 使 用 可 编程 工具 或 命令 行 工具 之 前 ， 我 们 需要 明白 账号 持 有 人 如 
何 通 过 AWS， 从 而 提出 服务 申请 。 因 为 这 些 都 是 收费 服务 ， 用 户 确实 不 布 
望 其 他 任何 人 以 他 们 的 名 义 提 出 服务 申请 。 请 注意 ， 在 之 前 的 例子 中 ， 我 
TR 自己 的 AWS 账 号 直接 登录 到 AWS 管 理 控 制 台 ， 因 此 无 需 担 心 这 个 间 
题 。 


每 个 AWS 账 号 都 有 邦和 干 个 标识 符 ， 这 些 标识 符 会 在 访问 这 些 服务 的 时 候 用 
到 。 


。 账 号 ID: 每 个 AWS 账 号 都 有 一 个 数字 ID。 


。 访问 秘 钥 :每 个 账号 都 有 一 个 关联 的 访问 秘 钥 ， 它 用 于 申请 服务 时 的 
账号 验证 。 


。 秘密 访问 秘 钥 : 秘密 访问 秘 钥 是 访问 秘 钥 的 搭档 。 访 问 秘 钥 并 不 是 私 
密 的 ， 它 会 歇 露 在 服务 请 求 过 程 中 ， 但 十 秘密 访问 秘 钥 只 由 账号 主人 
保管 ， 可 用 于 证 明 账 号 主人 的 身份 。 


。 密 钥 对 :这 是 用 于 登录 到 EC2 主 机 的 密 钥 对 。 既 可 以 在 EC2 中 生成 公 铀 / 
私 钥 密 钥 对 ， 也 可 以 将 外 部 生成 的 密 钥 对 导入 到 系统 中 。 


似乎 听 起 来 有 点 乱 ， 实 际 情 况 确 实 如 此 一 一 至 少 第 一 次 接触 时 是 这 样 的 。 
然而 ， 当 使 用 工具 访问 AWS 服 务 时 ， 通 音 只 要 事先 将 正确 的 证 书 加 入 配置 
文件 ， 一 切 都 会 正 芝 工作 。 但 是 ， 如 采 读 者 决定 深入 研究 可 编程 工具 或 命 
pom 间 来 阅读 每 个 服务 的 文档 ， 以 了 解 其 安全 机 制 
工作 原理 。 


2. EMR 命 令 行 工具 


本 书 中 ， 我 们 不 会 用 5S3 和 EMR 来 实现 任何 不 能 从 AWS 管 理 控制 台 实现 的 事 
情 。 然 而 ， 当 处 理 业 务工 作 人 负载 ， 整 合 其 他 工作 流程 或 目 动 化 访问 服务 
时 ， 无 论 基 于 浏 咒 絮 的 工具 有 多 强大 ， 它 都 不 适用 于 这 样 的 问题 。 使 用 服 
务 的 直接 编程 接口 可 以 实现 最 精细 的 控制 ， 但 却 需要 付出 最 多 的 努力 。 


Amazon 为 许多 服务 提供 了 一 组 命令 行 工具 ， 这 是 一 种 自动 访问 AwWS 服 务 的 
有 效 方式 ， 可 以 最 大 限度 地 减少 所 需 的 开发 工作 量 。 如 有 果 读 者 想 再 实现 一 
个 基于 CLI 的 EMR 接 口 ， 却 叉 不 想 编 写 自 定 义 代码 的 话 ， 可 以 试 斌 链接 于 
EMR 主 页 面 的 弹性 MapReduce 命 令 行 工 具 。 


2.13.2 ” AWS 生态 系统 


每 种 AWS 服 务 都 有 大 量 的 第 三 方 工具 、 服 务 和 函数 库 ， 它们 可 以 提供 访问 
服务 的 不 同方 式 、 人 额外 的 功能 ， 或 新 的 实用 程序 。 作 为 熟悉 AWS 生 态 系统 
的 起 点 ， 请 到 http://aws.amazon.com/developertools 页 面 查看 开发 人 员工 具 
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2.14 ”本 地 Hadoop 与 EMR Hadoop 的 对 比 


有 了 关于 本 地 Hadoop 集 群 及 EMR Hadoop 集 群 的 第 一 次 经 验 后 ， 这 是 一 个 考 
虑 这 两 种 方法 差异 的 好 时 机 。 


二 者 的 差异 可 能 是 明显 的 ， 其 关键 区 别 并 不 在 于 能 力 。 如 果 我 们 需要 的 是 
一 个 运行 MapReduce 作 业 的 环境 ， 任 何 一 种 方法 都 没 问 题 。 相 反 ， 主 要 的 区 
别 点 在 第 1 章 中 曾 提 及 的 一 个 话题 ， 那 就 是 : 你 是 喜欢 一 个 包含 前 期 基础 设 
施 费 用 以 及 持续 的 维护 工作 的 成 本 模型 ， 还 是 喜欢 一 个 具有 较 低 维护 负 

担 、 可 快速 实现 的 、 理 论 上 具有 无 限 扩展 性 的 按 需 付费 的 成 本 模型 。 除 了 
成 本 因素 外 ， 要 牢记 以 下 几 点 内 容 。 


EMR 文 持 特 定 版 本 的 Hadoop， 并 会 随 着 时 间 推 移 升 级 Hadoop 版 本 。 如 
果 用 户 需 要 某 个 特定 的 版 本 ， 尤 其 是 ， 如 果 用 户 需 要 在 新 版 本 发 布 后 
马上 获得 最 新 、 最 稳定 的 版 本 ， 那 么 EMR Hadoop 升 级 到 所 需 版 本 之 前 
的 时 间 间 隔 是 用 户 不 可 接受 的 。 


用 户 可 以 局 动 一 个 持久 的 EMR 作 业 流 ， 并 将 其 视 为 一 个 本 地 Hadoop 集 
群 ， 登 录 到 主机 节点 ， 并 调整 它们 的 配置 。 如 采 你 发 现 目 己 正 在 这 样 
做 ， 值 得 好 好 考虑 一 下 ， 有 果真 需要 这 样 控制 Hadoop 集 群 吗 ? 如 果 答 案 
那么 从 本 地 Hadoop 转 到 EMR 带 来 的 成 本 优势 是 否 依然 存 
z 


如 果 它 最 终归 结 为 成 本 问题 ， 切 记 要 考虑 本 地 集群 的 所 有 隐 性 成 本 ， 
人 们 通常 会 忘掉 这 些 隐 性 成 本 。 想 想 电 力 、 场 地 、 制 冷 和 主机 设备 的 
销 ， 如 果 设 备 在 凌晨 出 现 故障 ， 管 理 成 本 也 是 一 
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2.15 ”小 结 


本 章 内 容 讲述 了 如 何 安装 并 运行 一 个 Hadoop 集 群 ， 以 及 在 Hadoop 集 群 上 的 
行 MapReduce 程 序 的 步骤 。 


具体 来 说 ， 我 们 讨论 了 在 本 地 Ubuntu 主机 上 运行 Hadoop 的 前 提 条 件 ， 也 介 
绍 了 如 何以 独立 式 或 伪 分 布 式 模式 安装 和 配置 本 地 Hadoop 集 群 。 之 后 ， 我 
们 讲解 了 如 何 访问 HDFS 文 件 系统 和 提交 MapReduce 作 业 。 然 后， 我 们 继续 
前 进 ， 学 习 了 访问 弹性 MapReduce 和 其 他 AWS 服 务 需 要 用 到 的 账号 。 


我 们 了 解 了 如 何 使 用 AWS 管 理 控 制 台 浏 贤 并 创建 Ss3 桶 和 对 象 ， 以 及 如 何 创 
建 一 个 作业 流 并 用 它 在 EMR 托 管 的 Hadoop 和 集群 上 执行 MapReduce 作 业 。 我 
们 还 讨论 了 访问 AWS 服 务 的 其 他 方式 ， 并 研究 了 本 地 Hadoop 和 EMR 托 管 
Hadoop 之 间 的 差异 。 


既然 我 们 已 经 学 习 了 在 本 地 或 EMR 运 行 Hadoop 的 方法 ， 我 们 已 经 准备 好 开 
始 编写 自己 的 MapReduce 程 序 了 ， 这 将 是 下 一 章 的 主题 。 


第 3 章 ”理解 MapReduce 


前 两 章 讨论 了 Hadoop 可 以 解决 的 问题 ， 并 有 了 一 些 运 行 MapReduce 示 例 
作业 的 实践 经 验 。 在 此 基础 上 ， 接 下 来 我 们 继续 深入 研究 。 


通过 本 章 学 习 ， 读 者 将 会 : 
。 理解 键 值 对 为 何 可 以 成 为 Hadoop 任 务 的 基础 ; 
。 了 解 MapReduce 作 业 的 多 个 阶段 ; 
。 详细 探讨 map、reduce 以 及 可 选 组 合 阶段 的 工作 原理 ; 
e 学 习 Hadoop Java API， 并 用 它 开发 一 些 简 单 的 MapReduce 作 业 ; 


。 了 了解 Hadoop 的 输入 和 输出 。 


3.1 键 值 对 


自 第 1 章 开始 ， 我 们 一 直 在 谈论 以 键 值 对 的 形式 处 理 数据 并 输出 结果 ， 而 没 
有 解释 为 什么 要 以 键 值 对 的 形式 进行 。 现 在 是 时 候 来 阐述 这 个 问题 了 。 


3.1.1 具体 含义 


首先 ， 我 们 会 通过 强调 Java 标 准 库 中 的 类 似 概念 ， 来 前 明 我 们 所 说 的 键 值 对 
HJ X.» java.util.Map 接口 是 常用 类 ， 如 HashMap ， 甚 至 原始 
Hashtable 的 父 类 (通过 向 后 重 构 代 码 库 ) 。 


对 于 任何 Java Map 对 象 ， 其 内 容 是 从 指定 类 型 的 给 定 键 到 相关 值 的 一 组 映 

射 ， 键 与 值 的 数据 类 型 可 能 不 同 。 例 如 ， 一 个 HashMap 对 象 可 以 包含 从 人 
名 (String) 到 其 生日 (Date) 的 一 组 映射 。 

Hadoop 中 的 数据 包含 与 相关 值 关 联 的 键 。 这 些 数 据 的 存储 方式 允许 对 数据 
E 同 值 根 据 键 进行 分 类 和 重 排 。 如 果 使 用 键 值 对 数据 ， 应 该 会 有 如 下 

疑问 : 


。 在 数据 集中 ， 一 个 给 定 的 键 必然 有 了 映 喘 值 吗 ? 


。 给 定 键 的 天 联 值 是 什么 ? 
。 刍 的 完整 集合 是 什么 ? 


回忆 一 下 前 一 章 提 到 的 WordCount。 稍 后 ， 我 们 将 更 详细 地 讨论 它 ， 然 而 该 
程序 的 输出 显然 是 键 / 值 关系 的 集合 。 对 于 每 个 字 (E) ， 都 有 对 应 着 它 出 
现 的 次 数值 )。 琢 磨 一 下 这 个 简单 的 例子 ， 链 / 值 数 据 的 一 些 重要 特征 就 
变 得 清晰 起 来 ， 具 体 如 下 : 


。 键 必须 是 唯一 的 ， 而 值 并 不 一 定 是 唯一 的 ; 


。 每 个 值 必须 与 键 相 关联 ， 但 键 可 能 没有 值 (虽然 在 这 个 特定 的 例子 中 
没有 出 现 这 种 情况 ) ; 


。 对 键 进行 明确 定义 非常 重要 。 它 决定 了 计数 是 否 区 分 大 小 写 ， 这 将 产 
生 不 同 的 结 采 。 


提示 : 请 注意 ， 我 们 需要 审慎 对 待 “ 链 是 唯一 的 ”这 一 概念 。 这 并 不 是 说 
键 只 出 现 一 次 。 在 我 们 的 数据 集中 ， 可 以 看 到 键 多 次 出 现 。 并 且 我 们 将 
看 到 ，MapReduce 模 型 有 一 个 将 所 有 与 特定 键 关 联 的 数据 汇集 的 步 又 。 键 
的 唯一 性 保证 了 ， 假 如 我 们 为 某 一 给 定 键 汇集 对 应 的 值 ， 结 采 将 是 从 该 
键 的 实例 到 每 个 值 的 映射 ， 不 会 忽略 掉 任 何 值 。 


3.1.2 为 什么 采用 键 / 值 数据 


键 / 值 数据 作为 MapReduce 操 作 的 基础 ， 成 就 了 一 个 强大 的 编程 模型 ， 使 
MapReduce 获 得 了 令 人 惊讶 的 广泛 应 用 。Hadoop 和 MapReduce 被 多 种 不 同行 
业 和 问题 领域 所 采用 即 证实 了 这 一 点 。 很 多 数据 要 么 本 身 即 为 键 / 值 形式 ， 

要 久 可 以 以 键 / 值 这 种 方式 来 表示 。 键 值 数据 这 一 简单 的 模型 具有 广泛 的 适 
用 性 ， 以 这 种 形式 定义 的 程序 可 以 应 用 于 Hadoop 框 以。 


当然 ， 数 据 模型 本 身 并 非 是 使 Hadoop 如 此 强大 的 唯一 要 素 ， 它 真正 的 强大 
之 处 在 于 如 何 运 用 并 行 处 理 技术 以 及 分 而 治之 思想 ， 这 些 都 在 第 1 章 中 讨论 
过 。 我 们 可 以 在 大 量 主 机 上 储存 、 执 行 数据 ， 甚 至 使 用 将 较 大 任务 分 割 成 
较 小 任务 的 框架 ， 然 后 将 所 有 的 并 行 结果 整合 成 最 终结 论 。 但 是 ， 我 们 需 
要 上 述 框 架 提 供 一 种 捅 述 问 题 的 方法 ， 即 便 用 户 不 懂 该 框 染 的 运行 机 理 ， 
也 能 表述 清楚 要 处 理 的 问题 。 我 们 只 需 对 数据 所 需 的 转换 进行 描述 ， 其 余 
事情 由 该 框架 完成 。MapReduce 利 用 其 键 / 值 授 口 提供 了 这 样 的 抽象 ， 程序 
员 只 需 指 定 所 要 求 的 转换 ，Hadoop 完 成 对 任意 规模 数据 集 的 复杂 的 数据 转 
换 处 理 过 程 。 


一 些 实际 应 用 
为 了 更 为 具体 地 理解 键 值 对 ， 可 以 想像 一 些 实际 应 用 的 键 值 对 数据 : 
。 通 讯 筹 将 一 个 名 字 〈 键 ) 和 联系 方式 ( 值 ) 关联 起 来 ; 
。 银行 帐号 使 用 一 个 帐号 GE) 关联 帐户 明细 ED; 
。 一 本 书 的 索引 关联 一 个 关键 字 (RE) 和 其 所 在 页 码 UE) ; 


。 在 计算 机 文件 系统 中 ， 根 据 文件 名 ( 键 ) 访问 各 类 数据 ， 如 文本 、 图 
片 和 语音 GR) 。 


我 们 刻意 列举 了 一 些 范围 宽泛 的 例子 ， 帮 助 读者 认识 到 ， 键 / 值 数据 并 不 是 
只 能 应 必用 于 噩 端 数 据 挖掘 的 约束 模型 ， 而 是 环绕 我 们 喘 边 的 非常 普通 的 模 


我 们 之 所 以 大 篇 幅 地 讨论 键 值 对 数据 ， 是 因为 深入 理解 键 值 对 的 概念 对 理 
c RUBUS MapReduce 只 能 处 理 以 键 值 对 形式 摘 述 的 数 


3.1.3 “MapReduce 作 为 一 系列 键 / 值 变换 


读者 可 能 俩 然 见 过 把 MapReduce 摘 述 成 一 系列 键 / 值 转换 的 描述 方法 。 这 种 
描述 方法 看 上 去 有 点 吓人 。 


{K1,V1} -> {K2, List<V2>} -> (K3,V3) 


现在 我 们 试图 去 理解 上 式 所 表达 的 意思 
e MapReduce 作 业 的 map 方法 的 输入 是 一 系列 键 值 对 ， 称 之 为 K1 和 V1 。 


。map 方法 的 输出 (今后 作为 reduce 方法 的 输入 ) 是 一 系列 键 以 及 与 
之 关联 的 值 列表 ， 称 之 为 K2 和 V2 。 需 要 注意 的 是 ， e Mane 
输出 一 系列 单个 的 键 值 对 ， 它 们 通过 shuffle 方法 组 合成 键 与 值 列 
E 


。 MapReduce 作 业 的 最 终 和 输出 是 另 一 串 键 值 对 ， 称 之 为 K3 和 V3 。 


这 些 键 值 对 的 集合 可 能 相同 也 可 能 不 同 ， 也 就 是 说 ， 很 可 能 输入 姓名 和 联 
系 方式 然后 输出 相同 内 容 ， 也 许 附 带 有 一 些 用 于 整理 信息 的 中 间 格 式 。 请 
在 接 下 来 探索 MapReduce 的 Java API 时 记 住 这 个 3 阶段 模型 。 首 先 ， 我 们 会 
浏览 将 要 用 到 的 API 的 主要 部 分 ， 然 后 系统 剖析 一 个 MapReduce 作 业 的 执行 
过 程 。 

随 党 测验 : 键 值 对 
问题 1 键 值 对 的 概念 是 什么 ? 

1. Hadoop 创 造 并 专用 的 概念 。 

2. 表述 我 们 经 常 看 到 但 并 没有 这 样 考虑 的 事物 间 关 系 的 一 种 方法 。 

3. 一 个 计算 机 科学 的 学 术 概 念 。 
问题 2 用 户 名 /密码 组 合 是 键 值 对 的 一 个 例子 吗 ? 

1. 是 的 ， 这 是 一 个 值 与 另 一 个 值 相关 联 的 明显 例子 。 

2. 不 是 ， 密 码 更 像 是 用 户 名 的 一 个 属性 ， 它 们 之 间 没 有 索引 -类 型 的 天 


ZIN 


3. 通常 我 们 并 不 这 样 认为 ， 但 是 Hadoop 仍 可 将 用 户 名 /密码 组 合作 为 键 值 
对 组 合 来 处 理 。 


3.2 MapReduce 的 Hadoop Java API 


Hadoop API 在 0.20 版 发 生 了 重大 变化 ， 构 成 了 本 书 使 用 的 Hadoop 1.0 版 的 主 
要 接口 。 虽 然 之 前 的 API 功 能 运转 正常 ， 但 社会 各 界 认 为 ， 它 在 某 些 方面 是 
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新 API， 有 时 也 称 为 上 下 文 对 象 ， 其 原因 我 们 将 在 后 面 看 到 ， 它 是 使 用 Java 
开发 MapReduce 的 未 来 趋势 。 因 此 ， 本 书 将 尽量 使 用 新 API。 需 要 注意 的 
^E: 部 分 0.20 之 前 的 MapReduce 库 没有 被 移植 到 新 API， 所 以 当 我 们 需要 分 
析 其 中 任何 接口 时 ， 将 使 用 日 API 。 


0.20 MapReduce Java API 


在 org.apache.hadoop ,mapreduce 包 或 其 子 包 中 ， 包 含 了 0.20 及 以 上 
版 本 的 MapReduce API 实 现 的 大 部 分 关键 类 和 接口 。 


org.apache.hadoop.mapreduce 包 提 供 了 Mapper 和 Reducer 基 类 。 
在 大 多 数 情 况 下 ， 一 个 MapReduce 作 业 会 继承 上 述 基 类 ， 实 现 针对 该 作业 的 
Mapper 和 Reducer 子 类 。 


提示 : 虽然 最 近 的 Hadoop API 使 用 了 KEYIN/VALUEIN 和 KEYOUT/ 
VALUEOUT 读 的 术语 ， 但 由 于 K1 / K2 / K3 / 等 术语 有 助 于 理解 端 到 
端的 数据 流 ， 本 书 将 坚持 使 用 Kk1 / K2 / K3 / 等 形式 的 术语 。 


1. Mapper 类 


这 是 Hadoop 提 供 的 Mapper 基 类 的 缩减 视图 。 自 定义 的 mapper 类 的 实现 将 
继承 该 基 类 并 重 写 指定 的 方法 ， 如 下 所 示 : 


class Mapper<K1, V1, K2, V2» 
t 


void map(K1 key, V1 value Mapper.Context context) 
throws IOException, InterruptedException 


虽然 使 用 Java 泛 型 使 该 类 年 看 起 来 有 些 难以 理解 ， 其 实 没 那么 复杂 。 该 类 以 
键 / 值 数据 作为 输入 和 输出 类 型 ， 其 map 方法 以 输入 的 键 值 对 作为 参数 。 另 
一 个 参数 是 Context 类 的 实例 ， 它 提供 了 与 Hadoop 框 架 通 信 的 多 种 机 制 ， 
其 中 之 一 是 输出 map 或 reduce 方法 的 结果 。 


提示 : 请 注意 ，map 方法 只 引用 了 K1 和 V1 键 值 对 的 一 个 实例 。 这 是 
MapReduce 汇 式 的 一 个 关键 特点 ， 在 这 个 范式 下 ， 用 户 编写 处 理 单条 记录 
的 类 ， 框 架 负 责 将 巨大 的 数据 集 转化 为 键 值 对 流 的 所 有 工作 。 读 者 永远 
不 必 编 写 处 理 完整 数据 集 的 map 或 reduce 类 。Hadoop 也 通过 
InputFormat 和 OutputFormat 类 提供 了 类 似 机 制 ， 这 些 类 提供 了 普 
通 文件 格式 的 实现 ， 除 特殊 文件 类 型 外 ， 用 户 无 需 编写 文件 解析 器 。 


有 时 ， 用 户 可 能 需要 重 写 另 外 3 个 方法 。 


protected void setup( Mapper.Context context) 
throws IOException, Interrupted Exception 


MEN 


该 方法 在 任何 键 值 对 被 提交 给 map 方法 之 前 ， 被 调用 一 次 。 该 方法 的 默认 
实现 不 执行 任何 操作 ° 


protected void cleanup( Mapper.Context context) 
throws IOException, Interrupted Exception 


该 方法 在 所 有 键 值 对 被 提交 给 map 方法 之 后 ， 被 调用 一 次 。 该 方法 的 默认 
实现 不 执行 任何 操作 ° 


protected void run( Mapper.Context context) 
throws IOException, Interrupted Exception 


此 方法 控制 JVM 中 任务 处 理 的 总 体 流程 。 该 方法 的 默认 实现 将 在 对 数据 分 
块 中 的 每 个 键 值 对 反复 调用 map 方法 之 前 ， 调 用 一 次 setup 方法 ， 并 最 终 
调用 一 次 cleanup 方法 。 


技巧 : 下 载 示例 代码 

读者 可 以 使 用 http://www.packtpub.com 的 账号 下 载 所 购买 的 所 有 Packt 书 籍 
的 示例 代码 文件 。 或 者 访问 http:/www.packtpub.com/support ， 并 在 该 页 
面 注 册 ， 读 者 将 收 到 通过 电子 邮件 寄 来 的 示例 代码 文件 。 


2. Reducer 类 


Reducer 基 类 的 运行 与 Mapper 基 类 非常 相似 ， 通 常 子 类 仅 需 重 写 一 个 
reduce 方法 。Reducer 基 类 的 缩 略 定义 如 下 : 


public class Reducer«K2, V2, K3, V3» 
{ 


void reduce(K1 key, Iterable<V2> values, 
Reducer.Context context) 
throws IOException, InterruptedException 
{..} 
} 


再 次 注意 ， 该 类 以 更 广泛 的 数据 流 的 形式 进行 定义 (reduce 方法 接受 
K2/V2 作为 输入 ， 并 提供 K3/V3 作为 输出 ) ， 而 实际 reduce 方法 只 需要 
一 个 键 及 与 之 关联 的 值 列表 。 FE, Context 对 象 负责 输出 该 方法 的 结 
[M 


该 类 也 有 setup ^ run 和 cleanup 方法 ， 这 些 方法 的 默认 实现 与 Mapper 
类 的 类 似 ， 可 以 选择 性 地 进行 重 写 : 


protected void setup( Reduce.Context context) 


throws IOException, InterruptedException 


该 方法 在 任何 键 / 值 列表 被 提交 给 reduce 方法 之 前 ， 被 调用 一 次 。 其 默认 
实现 不 执行 任何 操作 ° 


protected void cleanup( Reducer.Context context) 
throws IOException, InterruptedException 


该 方法 在 所 有 键 / 值 列表 被 提交 给 reduce 方法 之 后 ， 被 调用 一 次 。 其 默认 
实现 不 执行 任何 操作 。 


protected void run( Reducer.Context context) 


throws IOException, InterruptedException 


该 方法 对 JVM 中 任务 处 理 的 总 体 流程 进行 控制 。 其 默认 实现 在 对 提供 给 
Reducer 类 的 众多 键 值 对 反复 调用 reduce 方法 之 前 ， 调 用 setup 方法 ， 
并 在 最 后 调用 cleanup 方法 。 


3. Driver2s 


除 Mapper 和 Reducer 类 外 ， 执 行 MapReduce 作 业 还 需要 另外 一 段 代码 
负责 与 Hadoop 框 架 通 信 并 指定 运行 MapReduce 作 业 所 需 的 配置 元 素 的 
驱动 程序 。 驱 动 程序 的 工作 涉及 多 个 方面 ， 例 如 告诉 Hadoop 使 用 哪个 
Mapper 和 Reducer 类 ， 以 何 种 格式 在 何 处 获取 输入 数据 ， 在 何 处 存放 输 
出 数据 ， 以 及 如 何 对 输出 数据 进行 格式 化 。 驱 动 程序 还 负责 设置 其 他 各 种 
配置 选项 ， 本 书 将 会 讲 到 它们 。 


作为 一 个 子 类 ，Driver 没 有 默认 父 类 。 张 动 逻 辑 通常 存在 于 封装 MapReduce 
作业 类 的 主 方法 中 。 下 述 代 码 乒 段 是 一 个 示例 张 动 程序 。 读 者 不 必 纠 结 于 
每 行 代码 的 工作 原理 ， 却 要 大 体 明 日 每 行 代码 实现 的 配置 任务 。 


public class ExampleDriver 


public static void main(String[] args) throws Exception 


{ 
// 创建 Configuration 对 象 ， 用 于 设置 其 他 选项 

Configuration conf = new Configuration() ; 
// 创建 作业 对 象 
Job job = new Job(conf, "ExampleJob") ; 
// 设置 作业 jarfile 中 主 类 的 名 字 
job.setJarByClass(ExampleDriver.class) ; 
设置 mapper 类 
job.setMapperClass(ExampleMapper.class) ; 
设置 [reducer 类 
job.setReducerClass(ExampleReducer.class) ; 
设置 最 终 输 出 的 键 和 值 的 类 型 
job.setOutputKeyClass(Text.class) ; 
job.setOutputValueClass(IntWritable.class) ; 
// 设置 输入 和 输出 文件 路 径 
FileInputFormat.addInputPath(job, new Path(args[0])) ; 
FileOutputFormat.setOutputPath(job, new Path(args[1])) 
// 执行 并 等 等 作业 完成 
System.exit(job.waitForCompletion(true) ? O : 1); 
} 


}} 


鉴于 之 前 对 作业 的 讨论 ，Driver 类 实现 的 大 部 分 设置 与 Job 对 象 的 操作 
相关 ， 这 不 足 为 奇 。 这些 设置 包括 设置 作业 的 名 称 ， 指 定 用 作 mapper 和 


reducer 的 类 » 


Driver 类 还 对 某 些 输入 /输出 配置 进行 TRE, 最 终 传递 给 main 方 法 的 参 
和 这 是 读者 会 经 常 看 到 的 一 个 很 普遍 
N ELI o 


对 于 配置 选项 ， 有 很 多 的 默认 值 。 在 前 面 的 类 中 ， 我 们 隐 式 地 使 用 其 中 的 
一 些 默 认 设置 。 最 值得 注意 的 是 ， 我 们 没有 提 输 入 文件 的 格式 及 输出 文件 
的 写 入 方式 。 这 些 内 容 在 前 面 提 到 的 InputFormat 和 OutputFormat 类 
中 进行 了 定义 ， 我 们 稍 后 将 对 其 进行 详细 探讨 。 上 默认 的 输入 和 输出 格式 是 
文本 文件 ， 这 些 文本 文件 适用 于 WordCount 示 例 程序 。 除 特别 优化 的 二 进 制 
格式 外 ， 有 多 种 表示 文本 文件 内 部 格式 的 方法 。 


对 于 不 太 复 杂 的 MapReduce 作 业 ， 一 种 常见 的 模型 是 将 Mapper 和 Reducer 
i o 这 种 模型 将 所 有 内 容 都 保存 在 一 个 文件 中 ， 简 


33 ”编写 MapReduce 程 序 


在 相当 长 的 一 段 时 间 内 ， 我 们 一 直 在 使 用 和 谈论 WordCount 程 序 。 现 在 ， 让 
我 们 实际 编写 该 程序 ， 编 译 并 运行 它 ， 然 后 尝试 进行 一 些 修改 。 


3.4 ”实践 环节 : 设置 classpath 


为 了 编译 任意 Hadoop 相 关 的 代码 ， 我 们 需要 参考 标准 的 Hadoop 捆 绑 类 。 


从 软件 分 发 包 中 添加 Hadoop-1.0.4.core.jar 至 Java classpath， 如 下 所 
ZN: 


$ export CLASSPATH=. :${HADOOP_HOME}/Hadoop-1.0.4.core.jar:${CLASSPATH} 


原理 分 析 


上 述 命 令 显 式 地 将 Hadoop-1.0.4.core,.jar 文件 与 当前 路 径 、 原 本 


CLASSPATH 环 境 变量 的 内 容 添 加 到 classpath ° 


再 次 重申 ， 把 这 个 命令 放 到 shell 局 动 文件 或 一 个 独立 的 引用 文件 将 是 很 好 
的 选择 。 


Tn: 稍 后 ， 我 们 还 需要 将 许多 用 于 Hadoop 的 第 三 方 代码 库 添 加 到 我 们 


的 classpath， 而 且 有 一 个 快捷 方式 来 完成 这 个 工作 。 就 日 前 而 言 ， 明 确 的 
将 核心 JAR 文 件 添 加 到 classpath 束 足够 了 。 


3.5 ”实践 环节 : 实现 WordCount 


在 第 2 章 中 ， 我 们 已 经 看 到 了 WordCount 示 例 程 序 的 应 用 。 现 在 ， 我 们 将 通 
过 执行 以 下 步 又， 探索 使 用 Java 语 言 实 现 这 一 程序 。 


1. 在 WordCount1.java 文件 中 输入 以 下 代码 : 


import java.io.* ; 

import org.apache.hadoop.conf.Configuration ; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


public class WordCount1i 


t 
public static class WordCountMapper 
extends Mapper 
1 
private final static IntWwritable one = new IntWritable(1); 
private Text word - new Text(); 
public void map(Object key, Text value, Context context 
) throws IOException, InterruptedException { 
String[] words - value.toString().split(" ") ; 
for (String str: words) 
word.set(str); 
context.write(word, one); 
} 
} 
} 


public static class WordCountReducer 
extends Reducer { 
public void reduce(Text key, Iterable values, Context context) throws 

IOException, InterruptedException ( 

int total - 0; 

for (IntWwritable val : values) ( 

total--4 ; 
} 


} 


context.write(key, new Intwritable(total)); 


} 


public static void main(String[] args) throws Exception { 
Configuration conf = new Configuration(); 
Job job - new Job(conf, "word count"); 
job.setJarByClass(WordCounti.class); 
job.setMapperClass(WordCountMapper.class); 
job.setReducerClass(WordCountReducer.class); 
job.setOutputKeyClass(Text.class); 
job.setOutputValueClass(IntWritable.class); 
FileInputFormat.addInputPath(job, new Path(args[9])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 
System.exit(job.waitForCompletion(true) ? O : 1); 


} 


2. 现在 通过 执行 下 列 命令 编译 WordCount1, java: 


$ javac WordCounti.java 


原理 分 析 


这 是 我 们 实现 的 第 一 个 完整 MapReduce 作 业 。 纵 观 该 作业 的 结构 ， 你 应 该 认 
出 我 们 先前 已 经 讨论 过 的 要 素 : 在 其 主 方法 中 通过 驱动 程序 设置 的 完整 Job 
类 ， 以 内 置 类 的 形式 定义 的 Mapper 和 Reducer 。 


下 一 节 ， 我 们 将 更 详细 地 探讨 MapReduce 的 机 制 ， 但 现在 通过 阅读 前 述 代码 
思考 它 是 如 何 实现 之 前 谈 到 的 键 / 值 转换 的 。 


Mapper 类 的 输入 可 以 说 是 最 难 理解 的 ， 因 为 键 并 没有 得 到 实际 使 用 。 该 作 
业 指 定 TextInputFormat 作 为 输入 数据 的 格式 。 默 认 情 况 下 ， 这 种 格式 提供 给 
mapper 的 数据 中 ， 键 指 的 是 文件 中 的 行 号 ， 值 指 的 是 该 行内 容 。 实 际 上 ， 
读者 可 能 从 来 没有 遇 到 过 使 用 行 号 作为 键 的 mapper， 但 TextInputFormat 提 供 
了 这 样 的 映射 。 


对 于 输入 源 中 的 每 行文 本 ，mapper 都 会 执行 一 次 ， 每 次 运行 都 会 获取 该 行 
内 容 并 把 它 切 分 成 词语 。 之 后 ， 它 会 使 用 Context 对 象 以 <word, 1» 的 格 
式 输出 每 个 新 的 键 / 值 (俗称 发 射 )。 这 些 输 出 就 是 我 们 所 说 的 K2/V2 值 。 


之 前 ， 我 们 讲 到 reducer 的 输入 是 一 个 键 和 一 组 与 该 键 对 应 的 值 。 在 map 和 
reduce 方法 之 间 发 生 了 一 些 不 可 思议 的 事 ， 将 每 个 键 对 应 的 值 收集 起 来 ， 
现在 我 们 不 摘 述 该 过 程 。Hadoop 对 每 个 键 执 行 一 次 reducer， 前 面 例 子 中 的 
reducer 人 简单 地 统计 Iterable 对 象 中 的 数字 ， 并 以 <word， count» 的 形 
式 给 出 每 个 词 的 输出 。 这 些 输出 就 是 我 们 所 说 的 K3/V3 的 值 。 


总 结 一 下 mapper 和 reducer 类 的 特点 : WordCountMapper 类 以 
Intwritable 和 Text 作为 输入 ， 然 后 以 Text 和 Intwritable 作为 输 
出 。WordCountReducer 类 的 输入 和 输出 都 是 Text 和 Intwritable 类 
型 。 这 又 是 一 个 相当 普遍 的 模式 ， 在 该 模式 中 map 方法 对 键 和 值 进行 了 反 
转 并 输出 一 系列 数据 对 ， 而 reducer 对 这 些 数据 对 进行 了 整合 。 


因为 有 真正 的 参数 值 ， 驱 动 在 这 里 更 有 意义 。 我 们 使 用 传 给 类 的 参数 指定 
输入 和 输出 位 置 。 


3.6 ”实践 环节 :构建 JAR 文 件 


在 Hadoop 和 集群 中 运行 作业 之 前 ， 我 们 必须 将 所 需 的 类 文件 打包 到 一 个 JAR 
文件 ， 该 文件 将 被 提交 给 系统 。 


用 已 生成 的 类 文件 创建 JAR 文 件 的 命令 如 下 所 示 。 


$ jar cvf wc1.jar WordCounti*class 


原理 分 析 


在 提交 给 Hadoop 之 前 ， 我 们 必须 将 类 文件 打包 成 JAR 文 件 ， 无 论 Hadoop 部 
署 在 本 地 还 是 Elastic MapReduce ° 


技巧 要 小 心 处 理 JAR 命 0 。 假 如 读者 在 JAR 文 件 中 包含 了 子 
目录 下 的 文件 ， 该 类 的 存储 路 径 可 能 与 预期 不 一 致 。 尤其 是 当 所 有 源 数 
o 该 目录 进行 编译 的 时 候 ， 这 种 情况 下 ， 可 能 
编写 一 个 脚本 来 改变 路 径 ， 将 所 需 文件 转换 为 JAR 文 件 ， 并 将 JAR 文 
件 转移 到 所 需 位 置 。 


3.7 “实践 环节 : 在 本 地 Hadoop 集 群 运行 WordCount 


现在 ， 我 们 已 经 生成 了 类 文件 并 将 其 打包 进 了 JAR 文 件 ， 可 以 通过 执行 下 列 
步骤 运行 WordCount ° 


1. 提交 痢 JAR 文 件 到 Hadoop 执 行 。 


$ hadoop jar wci.jar WordCounti test.txt output 


2. 如 果 执 行 成 功 的 话 ， 你 会 看 到 与 前 一 章 我 们 运行 Hadoop 提 供 的 示例 
WordCount 相 似 的 输出 。 检 查 输出 文件 ， 它 应 当 如 下 所 示 : 
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$ Hadoop fs -cat output/part-r-00000 
This 1 
yes 1 
a 1 
is 2 
test 1 
this 1 
原理 分 析 


y 


这 是 我 们 首次 对 目 己 的 代码 使 用 Hadoop JAR 命 令 。 它 有 4 个 参数 : 


S 


1. JAR 文 件 名 ; 
2. JAR 文 件 中 的 驱动 类 名 ; 
3. 输入 文件 在 HDFS 的 位 置 (本 例 中 ， 是 对 /user/Hadoop home 文件 


夹 的 相对 引用 ) ; 
4. 输出 文件 夹 的 目标 位 置 (同样 也 是 一 个 相对 路 径 ) 。 


BU. 只 有 在 JAR 文 件 清单 中 没有 指定 主 类 的 情况 下 ， 才 需要 驱动 类 名 
(如 本 例 中 ) 。 


3.8 ”实践 环节 : 在 EMR 上 运行 WordCount 
现在 ， 我 们 将 展示 如 何在 EMR 上 运行 同样 的 JAR 文 件 。 时 刻 要 牢记 ， 这 有 是 
需要 付费 的 ! 

1. 访问 AWS 控 制 台 http://aws.amazon.com/console ， 登 录 并 选择 S3 ^ 


2. 你 将 需要 两 个 桶 : 一 个 存储 JAR 文 件 ， 另 一 个 存储 作业 的 输出 。 你 既 可 
以 使 用 现 有 的 桶 也 可 以 新 建 两 个 桶 。 


3. 打开 将 用 于 存储 作业 文件 的 桶 ， 选 择 上 传 ， 并 添加 之 前 创建 的 


wc1.jar 文件 。 

4. 返回 控制 台 主 页 面 ， 之 后 通过 选择 Elastic MapReduce 进入 控制 台 的 
EMR 部 分 

5. 点 击 Create a New Job Flow 按钮 ， 你 会 看 到 一 个 如 下 所 示 的 熟悉 界 
面 [9] 


Cate à Vh Het: V oos pps oen appicats 


MIL D dul 


F-—-- | 


6. 第 2 章 中 ， 我 们 使 用 的 是 Hadoop 自 带 示 例 程 序 ， 因 此 选择 的 是 Run a 
sample application 。 本 例 中 ， 为 了 运行 自己 的 代码 ， 我 们 需要 执行 不 
同 的 步骤 。 首 先 ， 选 择 Run your own application 单 选 按钮 。 

7. 在 Select a Job Type 下 拉 杠 中， 选择 Custom JAR ° 


8. 点 击 Continue 按钮 ， 你 将 看 对 一 个 新 表格 ， 如 下 图 所 示 。 
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现在 指定 该 作业 的 参数 。 在 我 们 已 上 传 的 JAR 文 件 中 ， 代 码 (尤其 是 驱动 
类 ) 指定 了 一 些 参 数 ， 例 如 Mapper 和 Reducer 类 。 


我 们 需要 提供 的 是 JAR 文 件 的 路 径 及 作业 的 输入 和 输出 路 径 。 在 JAR 
Location 区 域 ， 输 入 已 上 传 的 JAR 文 件 的 位 置 。 假 如 JAR 文 件 命名 为 
wci.jar ， 并 且 上 传 到 了 名 为 mybucket 的 桶 中 ， 那 么 路 径 应 为 
mybucket/wci.jar. 


TEJAR Arguments 区 域 ， 需 要 键入 主 类 的 名 称 及 作业 的 输入 和 输出 位 置 。 

对 于 S3 上 的 文件 ， 我 们 可 以 使 用 形 如 s3://bucketname/objectname 

Eh ecnuue 按钮 ， 为 作业 流 选 用 虚拟 机 的 熟悉 界面 出 现 了 ， 如 
ZR œ 
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现在 ， 继 续 完成 作业 的 安装 和 执行 ， 就 如 我 们 在 第 2 章 所 做 的 那样 。 


原理 分 析 


在 EMR 上， 我 们 可 以 重用 为 本 地 Hadoop 集 群 所 写 的 代码 ， 这 点 值得 特别 注 
意 。 此 外 ， 除 了 前 面 这 几 个 步骤 ， 不 管 要 执行 的 作业 代码 的 源 文件 是 什 
么 ，EMR 控 制 台 的 大 部 分 设置 都 是 一 样 的 。 


在 本 章 剩 余部 分 ， 我 们 不 会 明确 展示 正在 EMR 上 执行 的 代码 ， 而 是 将 更 多 
地 关注 本 地 集群 ， 因 为 在 EMR 上 运行 JAR 文 件 是 很 容易 的 。 


3.8.1 0.20 之 前 版 本 的 Java MapReduce API 


本 书 优先 使 用 0.20 及 以 上 版 本 的 MapReduce Java API， 但 是 基于 下 面 两 个 原 
因 ， 我 们 需要 快速 浏览 一 下 旧 API 。 


1. 许多 在 线 示 例 和 其 他 参考 材料 是 用 旧 API 编 写 的 。 


2. MapReduce 框 架 的 若干 内 容 还 没有 移植 到 新 API， 我 们 不 得 不 使 用 旧 
API 来 研究 这 些 内 容 。 


旧版 API 类 主要 在 org,apache,.hadoop ,mapred 包 中 。 


新 版 API 类 使 用 具体 的 Mapper 和 Reducer 类 ， 而 旧版 API 倾 向 于 使 用 抽象 
类 和 接口 。 


Mapper 类 的 实现 继承 了 MapReduceBase 抽象 类 并 实现 了 Mapper 接口 ， 
而 一 个 目 定 义 的 Reducer 类 将 继承 相同 的 MapReduceBase 抽象 类 ， 但 实 
现 了 Reducer 接口 。 


由 于 MapReduceBase 的 功能 是 处 理 作业 设置 与 配置 ， 它 不 是 理解 
MapReduce 模型 的 核心 内 容 ， 所 以 我 们 不 会 讨论 其 太 多 的 细节 。 但 0.20 之 
前 版 本 的 Mapper 和 Reducer 的 接口 是 值得 一 看 的 。 


public interface Mapper«K1, V1, K2, V2» 
{ 


void map( K1 key, V1 value, OutputCollector« K2, V2» output, Reporter 
reporter) throws IOException ; 


} 
public interface Reducer«K2, V2, K3, V3» 


void reduce( K2 key, Iterator«V2» values, 
OutputCollector«K3, V3» output, Reporter reporter) 
throws IOException ; 


j 


这 里 需要 理解 下 列 几 点 内 容 。 


e OutputCollector 类 的 泛 型 参数 更 明确 地 展示 了 上 述 方法 的 结 采 是 
如 何 输 出 的 。 


。 旧版 API 为 此 使 用 OutputCcollector 类 ， 并 且 使 用 Reporter 类 将 
状态 和 指标 信息 写 入 Hadoop 框 架 。0.20 版 的 API 将 这 些 功 能 整合 到 了 
Context 类 。 


。 Reducer 接口 使 用 Iterator 对 象 代替 Iterab1e 对 象 。 这 个 变化 产 
生 的 原因 是 后 者 更 符合 Java 语 法 而 且 使 得 代码 更 简洁 。 


。 在 旧版 API 中 ， 无 论 是 map 方法 还 是 reduce 方法 都 能 抛 出 


InterruptedException 异常 。 


如 你 所 见 ， 不 同 版 本 的 API 发 生 的 变化 改变 了 MapReduce 程 序 的 编写 方式 ， 
但 不 会 改变 mapper 或 reducer 的 用 途 或 功能 。 除 非 需要 ， 不 要 觉得 你 必须 成 
为 这 两 套 API 的 专家 。 熟 悉 任 意 一 套 API 都 能 跟 上 本 书 剩余 部 分 的 内 容 。 


3.8.2 ”Hadoop 提 供 的 mapper 和 reducer 实 现 


我 们 并 非 总 是 必须 从 头 开 始 编写 自己 的 Mapper 和 Reducer 类 。Hadoop 提 
供 了 几 种 常见 的 Mapper 和 Reducer 的 实现 ， 它 们 可 以 用 于 我 们 的 作业 当 
中 。 如 果 我 们 不 重 写 新 版 API 的 Mapper 和 Reducer 类 的 任何 方法 ， 默 认 

的 实现 是 恒 等 的 Mapper 和 Reducer 类 ， 即 仅仅 将 输入 原封 不 动 地 输出 。 


需要 注意 的 是 ， 随 着 时 间 的 推移 ， 可 能 会 有 更 多 的 预先 写 好 的 Mapper 和 
Reducer 类 加 入 到 Hadoop API 中 。 目 前 ， 新 版 API 中 预 移 写 好 的 Mapper 
和 Reducer 类 的 数量 不 如 旧版 API 多 。 


mapper 可 以 在 org.apache.hadoop.mapreduce.1lib,.,mapper 找到 ， 
并 包含 以 下 内 容 。 


。 InverseMapper: 该 类 输出 (value, key) 。 
e TokenCounterMapper: 它 对 输入 的 每 行文 本 的 离散 令 牌 进行 计数 。 


reducer 可 以 在 org.apache.hadoop .mapreduce,1Lib.reduce 找到 ， 
目前 包含 以 下 内 容 。 


。 IntSumReducer: 它 输 出 每 个 键 对 应 的 整数 值 列 表 的 总 和 。 
e LongSumReducer: 它 输出 每 个 键 对 应 的 长 整 型 值 列表 的 总 和 。 


3.9 ”实践 环节 : WordCount 的 简易 方法 


让 我 们 重 瘟 WordCount， 但 这 次 使 用 一 些 预 定义 的 map 和 reduce 类 : 
1. 新 建 一 个 包含 下 列 代码 的 WordCountPredefined .java 文件: 


import org.apache.hadoop.conf.Configuration ; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.mapreduce.lib.map.TokenCounterMapper; 
import org.apache.hadoop.mapreduce.lib.reduce.IntSumReducer; 


public class WordCountPredefined 


public static void main(String[] args) throws Exception 


{ 


Configuration conf = new Configuration(); 

Job job - new Job(conf, "word count1"); 
job.setJarByClass(WordCountPredefined.class); 
job.setMapperClass(TokenCounterMapper.class); 
job.setReducerClass(IntSumReducer.class); 
job.setOutputKeyClass(Text.class); 
job.setOutputValueClass(IntWritable.class); 
FileInputFormat.addInputPath(job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 
System.exit(job.waitForCompletion(true) ? O : 1); 


2. 现在 ， 编 译 上 述 文件 ， 创 建 JAR 文 件 ， 并 和 之 前 一 样 运 行 它 。 


3. 如 果 想 要 使 用 相同 的 输出 位 置 ， 别 忘 了 要 在 运行 作业 之 前 删除 输出 目 
录 。 例 如 ， 使 用 hadoop fs -rmr output 。 


原理 分 析 


由 于 MapReduce 普 遍 使 用 WordCount 作 为 入 门 示 例 ， 即 便 使 用 预定 义 的 
Mapper 和 Reducer 实现 整个 WordCount 方 案 ， 可 能 也 不 会 令 人 惊讶 。 
TokenCounterMapper SQUE IE 分 为 一 系列 的 (token, 1 
) Xj, IntSumReducer 类 通过 累加 每 个 键 对 应 值 的 数量 提供 一 个 最 终 计 
这 里 要 注意 两 点 重要 内 容 。 
。 虽然 对 预定 义 的 Mapper 和 Reducer 来 讲 ， 使 用 它们 实现 WordCount 无 疑 
人 心 的 ， 但 它们 并 非 专 用 于 WordCount 程 序 ， 而 是 可 以 被 广泛 使 


。 复 用 现 有 的 mapper 和 reducer 是 需要 牢记 的 经 验 。 尤 其 是 ， 通 党 实现 一 
个 新 MapReduce 作 业 的 最 好 起 点 ， 往 往 是 改动 现 有 的 作业 。 


3.10 ”查看 WordCount 的 运行 全 貌 
为 了 更 详细 地 探讨 mapper 和 reducer 之 间 的 关系 ， 并 揭示 Hadoop 的 一 些 内 部 


工作 机 理 ， 现 在 我 们 将 全 景 呈 现 WordCount (或 任意 MapReduce 作 业 ) 是 如 
何 执行 的 。 


3.10.1 启动 


调用 驱动 中 的 Job .waitForcompletion() 是 所 有 行动 的 开始 。 该 驱动 
程序 是 唯 段 运 行 在 本 地 机 器 上 的 代码 ， 上 述 调 用 开局 了 本 地 主机 与 
JobTracker 的 通信 。 请 记 住 ，JobTracker 负 责 作 业 调 度 和 执行 的 各 个 方面 ， 
所 以 当 执 行 任何 与 作业 管理 相关 的 任务 时 ， 它 成 为 了 我 们 的 主要 接口 。 
JobTracker 代 表 我 们 与 NameNode 通 信 ， 并 对 储存 在 HDFS 上 的 数据 相关 的 所 
有 交互 进行 管理 。 


3.10.2 ”将 输入 分 块 


这 些 交 互 肯 先 发 生 在 JobTracker 接 受 输入 数据 ， 并 确定 如 何 将 其 分 配给 map 
任务 的 时 候 。 回 想 一 下 ，HDFS 文 件 通常 被 分 成 至 少 64 MB 的 数据 块 ， 
JobTracker 会 将 每 个 数据 块 分 配给 一 个 map 任 务 。 


当然 ，WordCount 示 例 涉及 的 数据 量 是 微不足道 的 ， 它 刚好 适合 放 在 一 个 数 
据 块 中 。 设 想 一 个 更 大 的 以 TB 为 单位 的 输入 文件 ， 切 分 模型 变 得 更 有 意 

o 每 段 文件 (或 用 MapReduce 术 语 来 讲 ， 每 个 split ) 由 一 个 map 作 业 处 
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一 旦 对 各 分 块 完 成 了 运算 ，JobTracker 就 会 将 它们 和 包含 Mapper 与 
Reducer 类 的 JAR 文 件 放置 在 HDFS 上 作业 专用 的 目 孙 ， 而 该 路 径 在 任务 开 
始 时 将 被 传递 给 每 个 任务 。 


3.10.3 ”任务 分 配 


一 旦 JobTracker 人 确定 了 所 需 的 map 任 务 数 ， 它 就 会 检查 集群 中 的 主机 数 ， 正 
在 运行 的 TaskTracker 数 以 及 可 并 发 执行 的 map 任 务 数 (用 户 自 定义 的 配置 变 
量 ) 。JobTracker 也 会 查看 各 个 输入 数据 块 在 集群 中 的 分 布 位 置 ， 并 尝试 定 
义 一 个 执行 计划 ， 使 TaskTracker 尽 可 能 处 理 位 于 相同 物理 主机 上 的 数据 

块 。 或 者 即使 做 不 到 这 一 点 ，TaskTracker 至 少 处 理 一 个 位 于 相同 硬件 机 架 
中 的 数据 块 。 

数据 局 部 性 优化 是 Hadoop 能 高 效 处 理 巨 大 数据 集 的 一 个 关键 原 因 。 还 记 
得 ， 默 认 情 况 下 ， 每 个 数据 块 会 被 复制 到 三 台 不 同 的 主机 。 所 以 ， 在 本 地 
处 理 大 部 分 数据 块 的 任务 /主机 计划 比 起 初 预想 的 可 能 性 更 高 。 


3.10.4 ”任务 启动 


然后 ， 每 个 TaskTracker 开 启 一 个 独立 的 Java 虚 拟 机 来 执行 任务 。 这 确实 增加 
了 局 动 时 间 损失 ， 但 它 将 因 错误 运行 map 或 reduce 任 务 所 引发 的 问题 与 
TaskTracker 陋 离开 来 ， 而 且 可 以 将 它 配置 成 在 随后 执行 的 任务 之 间 共 享 。 


如 采集 群 有 足够 的 能 力 一 次 性 执行 所 有 的 map 任 务 ， 它 们 将 会 被 全 部 局 动 ， 
并 获得 它们 将 要 处 理 的 分 块 数据 和 作业 JAR 文 件 。 每 个 TaskTracker 随 后 将 分 
块 复制 到 本 地 文件 系统 。 


如 果 任 务 数 超过 了 和 集群 能 力 ，JobTracker 将 维护 一 个 挂 起 任务 队列 ， 并 在 市 
点 完成 最 初 分 配 的 map 任 务 后 ， 将 挂 起 任务 分 配给 广 点 。 


现在 ， 我 们 准备 碍 看 map 任 务 执行 完毕 的 数据 。 听 起 来 工作 量 似乎 很 大 ， 事 
实 确实 如 此 。 这 也 解释 了 在 运行 任意 MapReduce 作 业 时 ， 为 什么 系统 启动 及 
执行 上 述 步 骤 会 花费 大 量 时 间 。 


3.10.5 “不 断 监视 JobTracker 


现在 ，JobTracker 等 待 TaskTracker 执 行 所 有 的 mapper 和 reducer。 它 不 断 地 与 

TaskTracker 交 换 心 跳 和 状态 消息 ， 查 找 进度 或 问题 的 证 据 。 它 还 从 整个 作 

业 执 行 过 程 的 所 有 任务 中 收集 指标 ， 其 中 一 些 指标 是 Hadoop 提 供 的 ， 还 有 

ee ， 不 过 本 例 中 我 们 没有 使 用 任何 
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3.10.6 ”mapper 的 输入 


在 第 2 章 中 ，WordCount 的 输入 是 一 个 仅 有 一 行内 容 的 文本 文件 。 在 本 市 简 
余部 分 ， 假 设 输入 文件 是 一 个 极为 普通 的 两 行文 本 文件 。 


This is a test 
Yes this is 


驱动 类 使 用 TextInputFormat 指 定 了 输入 文件 的 格式 和 结构 ， 因 此 ，Hadoop 
会 把 输入 文件 看 做 以 行 号 为 键 并 以 该 行内 容 为 值 的 文本 。 因 此 mapper 的 两 
次 调用 将 被 赋予 以 下 输入 。 


1 This is a test 
2 Yes it is. 


3.10.7 mapper 的 执行 


根据 作业 配置 的 方式 ，mapper 接 收 到 的 键 / 值 对 分 别 是 相应 行 在 文件 中 的 偏 
移 量 以 及 该 行内 容 。 因 为 我 们 不 关心 每 行文 本 在 文件 中 的 位 置 ， 所 以 
WordCountMapper 类 的 map 方法 舍弃 了 键 ， 并 使 用 标准 的 Java String 类 
的 split 方法 将 每 行文 本 内 容 拆 分 成 词 。 需 要 注意 的 是 ， 使 用 正则 表达 式 
或 StringTokenizer 类 可 以 更 好 地 断 词 ， 但 对 于 我 们 的 需求 ， 这 种 简单 
的 方法 就 足够 了 。 


然后 ， 针 对 每 个 单独 的 词 ，mapper 输 出 由 单词 本 身 组 成 的 键 和 值 1。 


技巧 : 我 们 加 入 了 一 些 优化 措施 ， 但 现在 不 必 对 其 考虑 太 多 。 读 者 会 看 
到 ， 我 们 并 不 是 每 次 创建 包含 值 1 的 Intwritable 对 象 ， 而 是 以 静态 变 
量 的 形式 创建 Intwritable 对 象 ， 并 在 每 次 调用 时 复 用 该 对 象 。 类 似 
地 ， 我 们 使 用 一 个 Text 对 象 并 在 每 次 执行 钞 数 时 重 置 其 内 容 。 这 样 做 的 
原因 是 ， 尽 管 它 对 我 们 小 型 的 输入 文件 帮助 不 大 ， 但 处 理 巨大 数据 集 
时 ， 可 能 会 对 mapper 进 行 成 十 上 万 次 凋 用 。 如 果 每 次 调用 部 为 输出 的 键 
和 值 创建 一 个 新 对 象 ， 这 将 消耗 大 量 的 资源 ， 同 时 垃圾 回收 会 引发 更 频 
2m fe MERI 知道 Context . write 方法 不 会 对 其 进行 
改动 。 


3.10.8 ”mapper 的 输出 和 reducer 的 输入 
mapper 的 输出 是 一 系列 形式 为 (word,1) 的 键 值 对 。 本 例 中 ，mapper 的 输 
出 为 : 


(This,1), (is, 1), (a, 1), (test., 1), (Yes, 1), (it, 1), (is, 1) 


这 些 从 mapper 输 出 的 键 值 对 并 不 会 直接 传 给 reducer。 在 map 和 reduce 之 间 ， 
还 有 一 个 shuffle 阶 段 ， 这 也 是 许多 MapReduce 奇 迹 发 生 的 地 方 。 


3.10.9 ”分 块 


Reduce 接口 的 隐 性 保证 之 一 是 ， 与 给 定 键 相关 的 所 有 值 都 会 被 提交 到 同一 
个 reducer。 由 于 一 个 集群 中 运行 着 多 个 reduce 任 务 ， 因 此 ， 每 个 mapper 的 输 
出 必须 被 分 块 ， 使 其 分 别传 入 相应 的 各 个 reducer。 这 些 分 块 文件 保存 在 本 
地 节点 的 文件 系统 。 


集群 中 的 Reduce 任 务 数 并 不 像 mapper 数 量 一 样 是 动态 的 ， 事 实 上 ， 我 们 可 
以 在 作业 提交 阶段 指定 reduce 任 务 数 。 因 此 ， 每 个 TaskTracker 就 知道 集群 中 
有 多 少 个 reducer， 并 据 此 得 知 mapper 输 出 应 切 分 为 多 少 块 。 


提示 :， 在 后 续 章 节 中 ， 我 们 会 介绍 故障 容忍 ， 但 现在 明显 的 问题 是 ， 假 
如 reducer 失 败 了 ， 会 给 本 次 计算 市 来 什么 影响 呢 ? 答案 是 ，JobTracker 会 
保证 重 狐 执行 发 生 故 障 的 reduce 任 务 ， 可 能 是 在 不 同 的 点 重新 执行 ， 
此 临时 故障 不 是 问题 。 更 为 严重 的 问题 是 ， 数 据 块 中 的 数据 敏感 性 缺陷 
或 错误 数据 可 能 导致 整个 作业 失败 ， 除 非 采取 一 些 手 段 。 


3.10.10 RJ Z6 ER ERA 


Partitioner JifEorg.apache.hadoop.mapreduce 包 中 ， 该 抽象 类 


具有 如 下 特征 : 


public abstract class Partitioner«Key, Value» 


public abstract int getPartition( Key key, Value value, 
int numPartitions) ; 


j 


默认 情况 下 ，Hadoop 将 对 输出 的 键 进 行 哈 希 运算 ， 从 而 实现 分 块 。 此 功能 
Horg. apache.hadoop.mapreduce.lib.partition 包 里 的 
HashPartitioner 类 实现 ， 但 某 些 情况 下 ， 用 户 有 必要 提供 一 个 目 定义 
的 Partitioner 子 类 ， 在 该 子 类 中 实现 针对 具体 应 用 的 分 块 逻 辑 。 特 别 是 
Re OROSII ME Hag XPartitioner 子 类 
EE o 


3.10.11 reducer 类 的 输入 


reducer 的 TaskTracker 从 JobTracker 接 收 更 新 ， 这 些 更 新 指明 了 集群 中 哪些 贡 
点 承载 着 map 的 输出 分 块 ， 这 些 分 块 将 由 本 地 reduce 任 务 处 理 。 之 后 ， 


TaskTracker 从 各 个 节点 获取 分 块 ， 并 将 它们 合并 为 一 个 文件 反馈 给 reduce 任 
PM 
务 


3.10.12 reducer 类 的 执行 


我 们 实现 的 wordCountReducer 类 很 向 单 。 针 对 每 个 词 ， 该 类 仅 对 数组 中 
的 元 素数 目 进行 统计 并 为 每 个 词 输出 最 终 的 (Word， count) 键 值 对 。 


技巧 : 不 必 为 避免 创建 多 余 对 象 而 过 多 地 考虑 采取 一 些 优化 措施 。 
reducer 的 调用 次 数 通常 小 于 mapper 的 调用 次 数 ， 因 此 调用 reducer 市 来 的 
开销 无 需 特 别 在 意 。 然 而 ， 假 如 读者 有 着 非常 严格 的 性 能 要 求 ， 那 么 您 
可 以 采取 任何 有 利于 提高 性 能 的 措施 。 


我 们 调用 WordCount 处 理 示例 输入 ， 除 is 出 现 两 次 外 ， 其 余 所 有 词 仅 出 现 
一 次 。 


提示 :， 请 注意 ,this 和 This 分 别 进行 了 计数 ， 这 是 因为 我 们 并 不 打算 忽 
略 大 小 写 。 类 似 地 ， 每 个 句子 以 句号 结尾 ， 这 个 规则 可 能 干扰 is Bf, 
因为 is Eis.. 并 不 相同 。 在 处 理 文本 数据 时 ， 对 大 写 、 标 点 符号 、 连 
字符 、 页 码 及 其 他 方面 都 要 特别 小 心 ， 因 为 这 些 东 西 可 以 误导 数据 的 理 
解 方式 。 在 这 些 情况 下 ， 通 常 需要 一 个 先期 的 MapReduce 作 业 对 数据 集 执 
行 标准 化 或 清理 策略 。 


3.10.13 reducer 类 的 输出 
此 ， 本 例 中 reducer 的 最 终 输 出 集合 大 


(This, 1), (is, 2), (a, 1), (test, 1), (Yes, 1), (this, 1) 


这 些 数据 将 被 输 出 到 驱动 程序 指定 的 输出 路 径 下 的 分 块 文件 中 ， 并 将 使 用 
指定 的 OutputFormat 对 其 进行 格式 化 。 每 个 reduce 任 务 写 入 一 个 以 part-r- 
nnnnn 为 文件 名 的 文件 ， 其 中 nnnnn 从 990999 开始 并 逐步 递增 。 当 然 ， 这 
些 内容 曾 在 第 2 章 讲 到 ， 和 希望 part 前 级 现在 稍微 容易 理解 一 些 。 


3.10.14 关机 


一 旦 成 功 完成 所 有 任务 ， JobTracker 回 客户 端 答 出 作业 的 最 终 状态 ， 以 及 作 
业 运 行 过 程 中 一 些 比 较 重要 的 计数 器 集合 。 完 整 的 作业 和 任务 历史 记录 存 
储 在 每 个 节点 的 日 志 路 径 中 ， 通 过 JobTracker 有 的 网 络 用 户 接 口 更 易于 访问 ， 
只 需 将 浏览 器 指向 JobTracker 节 点 的 50 030 端 口 即 可 。 


3.10.15 “这 就 是 MapReduce 的 全 部 


如 你 所 见 ，Hadoop 为 每 个 MapReduce 程 序 提供 了 大 量 机 制 ， 同 时 ，Hadoop 
提供 的 框架 在 许多 方面 都 进行 了 简化 。 如 前 所 述 ， 对 于 WordCount 这 样 的 小 
程序 来 说 ，MapReduce 的 大 部 分 机 制 并 没有 多 大 价值 ， 但 是 不 要 起 了 ， 无 论 


在 本 地 Hadoop 或 EMR， 我 们 可 以 使 用 相同 的 软件 和 mapperreducer 在 巨大 的 
集群 上 对 更 大 的 数据 集 进 行 字 数 统计 。 那 时 ，Hadoop 所 做 的 大 量 工作 使 用 
户 能 够 在 如 此 大 的 数据 集 上 进行 数据 分 析 。 人 否则 ， 手 工 实现 代码 分 发 、 代 
码 同 步 以 及 并 行 运算 将 付出 超 乎 想象 的 努力 。 


3.10.16 ”也 许 缺 了 combiner 


前 面 讲述 了 MapReduce 程 序 运行 的 各 个 步骤 ， 却 漏 掉 了 另外 一 个 可 选 步 又 。 
在 reducer 获 取 map 方 法 的 输出 之 前 ，Hadoop 人 允许 使 用 combiner 类 对 map 方法 
的 输出 执行 一 些 前 期 的 排序 操作 。 


为 什么 要 有 combiner 


Hadoop 设 计 的 前 提 是 ， 减 少 作 业 中 成 本 较 高 的 部 分 ， 通 党 指 磁盘 和 网 络 输 
入 输出 。mapper 的 输出 往往 是 巨大 的 它 的 大 小 通常 是 原始 输入 数据 的 
许多 倍 。Hadoop 的 一 些 配置 选项 可 以 帮助 减少 reducer 在 网 络 上 传输 如 此 大 
的 数据 量 所 禹 来 的 性 能 影响 。combiner 则 采取 了 不 同 的 方法 ， 它 对 数据 进行 
早期 聚合 以 减少 所 需 传输 的 数据 量 。 


combiner 没 有 目 己 的 接口 ， 它 必须 具有 与 reducer 相 同 的 特征 ， 因 此 也 要 继承 
org.apache.hadoop. mapreduce 包 里 的 Reduce 类 。 这 样 做 的 效果 
主要 是 ， 在 map 节 点 上 对 发 往 各 个 reducer 的 输出 执行 mini-reduce 操 作 。 


Hadoop 个 保证 combiner 是 否 被 执行 。 有 了 时候， 它 可 能 根本 不 执行 ， 而 某 些 
时 候 ， 它 可 能 被 执行 一 次 、 两 次 甚至 多 次 ， 这 取决 于 mapper 为 每 个 reducer 
生成 的 输出 文件 的 大 小 和 数量 。 


3.11 ”实践 环节 使 用 combiner 编 写 WordCount 


让 我 们 在 第 一 个 WordCount 示 例 程 序 中 加 入 combiner。 事 实 上 ， 我 们 可 以 使 
用 reducer 作 为 combiner。 因 为 combiner 必 须 具 有 和 reducer 相 同 的 接口 ， 所 以 
经 常会 看 到 使 用 reducer 作 为 combiner 的 情况 ， 但 要 注意 ， 包 含 在 reducer 中 的 
处 理 类 型 将 确定 其 是 否 可 用 作 combiner， 稍 后 我 们 将 讨论 这 个 问题 。 由 于 我 
们 试图 统计 单词 出 现 的 次 数 ， 可 以 在 map 广 点 进行 部 分 计数 ， 并 将 这 些 结果 


传 给 reducer ° 


1. 复制 WordCount1.java ， 保 存 为 NordCcount2. java ， 并 在 
Mapper 和 Reducer 类 定义 之 则 加 入 下 列 内 容 来 修改 驱动 类 。 


job.setCombinerClass(WordCountReducer.class); 


2. 修改 类 名 为 WordCount2 并 编译 。 


$ javac WordCount2.java 


3. 创建 JAR 文 件 。 


$ jar cvf wc2.jar WordCount2*class 


4. 在 Hadoop 上 运行 作业 。 


$ hadoop jar wc2.jar WordCount2 test.txt output 


5. 检查 输出 。 


$ hadoop fs -cat output/part-r-00000 


原理 分 析 


本 次 输出 可 能 与 预期 有 所 差别 ， 因 为 is 出 现 了 两 次 ， 其 值 却 被 错误 统计 为 
1? 


问题 在 于 combiner 与 reducer 的 交互 方式 。 提 区 给 reducer 的 值 ， 之 前 是 (二 s， 
1, 1). ， 现 在 却 是 (1s，2) ， 这 是 因为 combiner 对 每 个 词 的 出 现 次 数目 行 
进行 合并 。 然 而 ，reducer 并 没有 看 到 Iterable 对 和 象 中 的 真正 值 ， 它 仅 对 
combiner 提 交 的 数据 进行 了 统计 。 


使 用 reducer 作 为 combiner 的 条 件 


编写 combiner 时 要 特别 留心 。 请 记 住 ，Hadoop 不 保证 combiner 被 应 用 到 map 
输出 的 次 数 ， 可 能 根本 不 执行 ， 也 可 能 执行 1 次 或 者 多 次 。 因 此 ， 关 键 问 题 


在 于 ， 由 combiner 执 行 的 操作 是 否 可 被 如 此 应 用 。 分 布 式 的 操作 ， 如 总 和 、 
加 法 或 类 似 操 作 通 音 是 安全 的 ， 但 是 ， 如 前 所 示 ， 务 必 确 保 reduce 逻 辑 不 包 
含 可 能 破坏 这 个 特性 的 隐 含 假设 。 


3.12 ”实践 环节 : 更 正 使 用 combiner 的 WordCount 


让 我 们 对 WordCount 做 一 些 必要 的 修改 ， 以 正确 使 用 combiner ° 


将 Wordcount2. java 复制 为 名 为 WordCount3.,java 的 新 文件 ， 并 将 
reduce 方法 改 为 如 下 内 容 : 


public void reduce(Text key, Iterable«IntWwritable» values, Context 
context) throws IOException, InterruptedException 


{ 
int total = O ; 
for (Intwritable val : values)) 


total+= val.get() ; 


context.write(key, new IntWwritable(total)); 


j 


别 忘 了 ， 要 将 该 类 名 改 为 WordCount3 ， 然 后 编译 它 ， 创 建 JAR 文 件 ， 并 
和 以 前 一 样 运行 作业 。 


原理 分 析 


现在 ， 输 出 与 预期 一 致 。map 端 对 combiner 的 调用 全 部 执行 成 功 ， 同 时 ， 
reducer 生 成 的 输出 值 全 都 正确 。 


技巧 : 假如 原来 的 reducer 被 用 作 combiner 而 新 的 reducer 被 用 作 reducer， 
WordCount 程 序 会 工作 正常 吗 ? 答案 是 否定 的 ， 但 是 我 们 的 测试 样 例 无 法 
说 明 这 一 点 。 由 于 combiner 可 能 会 在 map 输 出 数据 上 调用 多 次 ， 如 果 数 据 
集 足 够 大 的 话 ， 同 样 的 错误 会 多 次 出 现在 map 输 出 中 ， 但 是 由 于 此 处 输入 
数据 规模 小 ， 错 误 没 有 显现 出 来 。 从 根本 上 讲 ， 原 来 的 reducer 是 错误 
的 ， 但 其 错误 并 不 明显 ， 要 小 心 此 类 细微 的 逻辑 缺陷 。 事 实 上， 这 类 问 
题 难以 调试 ， 因 为 代码 在 开发 机 上 的 数据 集 的 子 集 工 作 正 常 ， 却 在 更 大 
的 业务 集群 上 发 生 故 障 。 要 仔细 推 殴 combiner 类 ， 而 不 能 完全 依赖 于 处 理 
小 样本 数据 的 测试 。 


复 用 助 您 一 臂 之 力 


在 前 面 章节 中 ， 我 们 使 用 了 现 有 的 作业 类 文件 并 对 其 进行 了 改动 。 这 是 一 
个 非常 常见 的 Hadoop 开 发 流程 的 小 例子 使 用 现 有 的 作业 文件 作为 开发 
新 作业 的 起 点 。 虽然 新 作业 的 mapper 和 reducer 人 逻辑 与 现 有 作业 相去 甚 远 ， 
但 使 用 现 有 作业 通常 能 够 节省 时 间 ， 因 为 它 能 够 帮 您 记 住 实现 mapper、 
reducer 和 驱动 所 必须 的 元 素 。 


随 堂 测验: MapReduce 的 结构 

问题 1 你 必须 为 MapReduce 作 业 指 定 哪些 内 容 ? 
1. mapper 和 reducer 类 。 
2. mapper ` reducer 和 combiner 类 。 
3. mapper ^ reducer ` partitionerf combiner% ° 
4. 什么 都 不 需要 ， 所 有 类 都 有 默认 实现 。 


问题 2 Combiner 会 被 执行 多 少 次 ? 


1. 至 少 1 次 。 


2. 0 次 或 1 次 。 


3. 0 次 、1 次 或 多 次 。 
4. 这 是 可 配置 的 。 
问题 3 有 一 个 mapper 为 每 个 键 生成 一 个 整数 值 ， 下 面 是 reduce 操 作 。 
e Reducer A: 输出 整数 值 集合 的 总 和 。 
* Reducer B: 输出 值 集合 中 的 最 大 值 。 
e Reducer C: 输出 值 集合 的 平均 值 。 
e Reducer D: 输出 集合 中 最 大 值 与 最 小 值 之 靶 。 
这 些 reduce 操 作 中 ， 哪 个 可 被 安全 地 用 作 combiner? 


1. 全 部 。 
2.A 和 B ° 
3.A、B 和 D ° 
4. CĦID ° 
5. 都 不 可 以 。 


3.13 Hadoop 专 有 数据 类 型 


截至 目前 ， 我 们 已 经 草草 了 解 了 用 作 map 和 reduce 类 的 输入 和 输出 的 数据 类 
型 。 现 在 ， 让 我 们 研究 一 下 这 些 数 据 类 型 。 


3.13.1 ”Writable 和 WritableComparable 接 口 


如 果 浏 览 org .apache.hadoop.io 包 的 Hadoop API， 读 者 会 发 现 一 些 熟 
悉 的 类 带 有 Writable 词 级 ， 这 些 类 包括 Text ^ IntWritable 及 其 他 。 


org.apache.hadoop.io 也 包含 了 Writable 接口 的 定义 ， 其 定义 如 


import java.io.DataInput ; 
import java.io.DataOutput ; 
import java.io.IOException ; 


public interface Writable 


void write(DataOutput out) throws IOException ; 
void readFields(DataInput in) throws IOException ; 


Writable 接 口 的 主要 目的 是 ， 当 数据 在 网 络 上 传输 或 从 硬盘 读 写 时 ， 提 供 数 
据 的 序列 化 和 反 序 列 化 机 制 。 所 有 用 作 mapper 或 reducer 输 入 或 输出 值 的 数 
据 类 型 (也 就 是 说 ，V1、V2 或 V3 ) 都 必须 实现 这 个 接口 。 


用 作 键 的 数据 (K1, K2, K3) 有 着 更 为 严格 的 要 求 : 除 writable 之 
外 ， 它 必须 实现 标准 Java 中 的 Comparable 接口 : 


public interface Comparable 


{ 
public int compareTO( Object obj) ; 
} 


compare 方 法 的 返回 值 为 -1、0 或 者 1 ， 这 取决 于 被 比较 的 对 象 小 于 、 等 于 
或 大 于 当前 对 象 。 


作为 一 个 便 用 接口 ，Hadoop 在 org ,apache .hadoop .io 包 里 提供 了 一 个 
WritableComparable 接口 。 


public interface WritableComparable extends Writable, Comparable 


Ü 


3.13.2 wrapper ft 


鞋 运 的 是 ， 你 不 必 从 头 开始 。 正 如 你 所 看 到 的 ，Hadoop 提 供 了 包 闭 Java 原 
始 类 型 并 实现 WritableComparable 的 类 。 它 们 被 放置 在 
org.apache.hadoop.io ® ° 


1. 原始 包装 类 
这 些 类 在 概念 上 与 原始 包 本 
o 它们 保持 一 个 原始 值 ， 该 值 既 可 以 在 创建 类 的 时 候 设置 ， 也 可 以 通 


setter 方 法 设置 。 


* BooleanWritable 
。 ByteWritable 

* DoubleWritable 
e FloatWritable 

e [IntWritable 


e LongWritable 


e VIntWritable: 可 变 长 度 的 整数 类 型 

。VLongWritable: 可 变 长 度 的 长 整数 类 型 
2. 数组 包装 类 
这 些 类 为 其 他 Writable 对 象 数 组 提供 了 可 写 封 朔 。 例 如 ， 这 些 类 的 实例 
可 以 存储 Intwritable 或 Doublewritable 类 型 的 数组 ， 却 不 能 存储 原 


始 的 整数 或 浮 点 数 类 型 的 数组 。 这 些 类 需要 继承 Writable 类 。 如 下 所 
ZN: 


e ArrayWritable 


e TwoDArrayWritable 
3. Map 包 装 类 


RER AEH java.util.Map 接口 作为 键 或 者 值 。 需 要 注意 的 是 ， 
们 被 定义 为 Map<writable，Writable> ， 并 有 效 管理 部 分 内 部 运行 时 
类 型 检查 。 这 就 意味 着 弱化 了 编译 类 型 检查 ， 所 以 要 当心 。 


e AbstractMapwritable: 这 十 其 他 具体 的 Writable map 包 装 类 的 
基 类 。 


。MapWritable : 这 是 一 个 通用 的 map 包 装 类 ， 将 Writable 键 映射 为 
writable 值 。 


。SortedMapWritable : 这 是 MapWritable 类 的 一 个 特殊 实现 ， 它 
同时 也 实现 了 SortedMap 接口 。 


3.14 ”实践 环节 : 使 用 Writable 包 装 类 
让 我 们 编写 一 个 类 ， 来 展示 实际 使 用 中 的 包装 类 。 
1. 创建 WritablesTest .java XF, ATIINA: 


import org.apache.hadoop.io.* ; 
import java.util.* ; 


public class WritablesTest 


public static class IntArrayWritable extends ArrayWritable 


1 

public IntArrayWritable() 

1 

super(IntWritable.class) ; 

} 
} 
public static void main(String[] args) 
{ 


System.out.println("*** Primitive Writables ***") ; 
Booleanwritable booli = new Booleanwritable(true) ; 
Bytewritable bytei = new Bytewritable( (byte)3) ; 
System.out.printf("Boolean:9:s Byte:%d\n", booli1, bytei.get()) ; 


Intwritable i1 = new IntWritable(5) ; 

Intwritable i2 = new IntWritable( 17) ; 

System. out.printf("I1:9d I2:%d\n", ii1.get(), i2.get()) ; 
i1.set(i2.get()) ; 

System.out.printf("I1:9&d I2:%d\n", i1.get(), i2.get()) ; 
Integer i3 - new Integer( 23) ; 

ii1.set( i3) ; 

System.out.printf("I1:9&d I2:%d\n", i1.get(), i2.get()) ; 


System.out.println("*** Array Writables ***") ; 

ArrayWritable a - new ArrayWritable( IntWritable.class) ; 

a.set( new IntWritable[]f new IntWritable(1), new IntWwritable(3), new 
Intwritable(5))]) ; 


Intwritable[] values = (IntWwritable[])a.get() ; 
for (IntWwritable i: values) 
System.out.println(i) ; 


IntArrayWwritable ia = new IntArrayWritable() ; 
ia.set( new Intwritable[]f new IntWwritable(1), new 
Intwritable(3), new IntWritable(5)]) ; 


Intwritable[] ivalues = (Intwritable[])ia.get() ; 
ia.set(new Longwritable[](new Longwritable(10001))) ; 


System.out.println("*** Map Writables ***") 
Mapwritable m = new MapWwritable() ; 
Intwritable key1 = new IntWritable(5) ; 
Nullwritable value1 = Nullwritable.get() ; 
m.put(keyi1, value1) ; 
System.out.println(m.containsKey(key1)) ; 
System.out.println(m.get(key1)) ; 
m.put(new Longwritable(1000000000), key1) ; 
Set keys - m.keySet() ; 


for(Writable w: keys) 
System.out.println(w.getClass()) ; 


2. 编译 并 运行 该 类 ， 你 会 得 到 下 列 输出 : 


*** primitive Writables *** 
Boolean:true Byte:3 

I1:5 I2:17 

I1:17 I2:17 


I1:23 I2:17 
** Array Writables *** 


3 


5 
** Map Writables *** 
true 
(null) 
class org.apache.hadoop.io.Longwritable 
class org.apache.hadoop.io.IntWwritable 


原理 分 析 


上 上述 输 出 的 含义 在 很 大 程度 上 古 不 言 目 明 的 。 我 们 创建 了 多 个 Writable 
包 厂 对 象 ， 并 展示 了 它们 的 一 般 用 法 。 其 中 ， 有 几 个 关键 点 。 


。 如 前 所 述 ，Writable 保证 了 目 身 类 型 安全 性 。 因 此 ， 可 能 有 存储 多 
种 数据 类 型 的 数组 或 map， 如 上 述 示 例 代 码 所 示 。 


e 我 们 可 以 使 用 目 动 拆 箱 ， 例 如 ， 将 一 个 Integer 对 象 提供 给 参数 为 
Intwritable 的 方法 ， 该 方法 希望 收 到 的 参数 是 一 个 int 变量 。 


。 如 果 Arraywritable 被 用 作 reduce 函数 的 输入 ， 还 需要 一 个 内 部 
类 ， 必 须 定义 一 个 带 有 默认 构造 函数 的 子 类 。 


1. 其 他 包装 类 


Compressedwritable: 这 是 一 个 基 类 ， 它 允许 大 型 对 象 保持 压 
缩 ， 直 到 其 属性 被 显 式 访问 。 


Objectwritable: 这 是 一 个 多 用 途 的 通用 对 象 包装 类 。 


Nullwritable: 这 是 一 个 表示 空 值 的 对 象 。 


Versionedwritable : 这 是 一 个 允许 writable 类 跟踪 版 本 号 的 基本 实 
FI ° 


一 展 身手 ; 练习 Writables 类 


练习 使 用 NullWwritable 和 objectwritable 编写 类 ， 如 同 之 前 的 例 
于 一人 


2. 编写 自 定 义 类 


正如 读者 在 Writable 和 Comparable 接口 所 看 到 的 ， 所 需 方 法 相当 简 
单 ; 如 果 读 者 想 在 MapReduce 作 业 中 使 用 目 定 义 类 作为 键 或 者 值 ， 不 必 害 怕 
增加 这 样 的 功能 。 


3.15 ”输入 /输出 


我 们 已 多 次 提 到 驱动 类 的 一 个 功能 ， 却 没有 进行 详细 解释 ， 指定 MapReduce 
作业 的 输入 和 输出 的 数据 格式 和 结构 。 


3.15.1 ”文件 、split 和 记录 

我 们 已 经 讨论 过 ， 在 作业 启动 时 ， 文 件 被 切 分 为 split，split 中 的 数据 被 送 往 
mapper。 然 而 ， 却 忽视 了 两 个 方面 : 数据 在 文件 中 如 何 存储 以 及 单个 键 值 
如 何 传 给 mapper 。 


3.15.2 InputFormat 和 RecordReader 


对 于 第 一 个 问题 ，Hadoop 提 出 了 InputFormat 的 概念 。 
org.apache.hadoop.mapreduce 包 里 的 InputFormat 抽象 类 提供 了 
如 下 列 代码 所 示 的 两 个 方法 。 


public abstract class InputFormat«K, V» 


t 

public abstract List«InputSplit» getSplits( JobContext context) ; 
RecordReader«K, V» createRecordReader(InputSplit split, 
TaskAttemptContext context) ; 


这 些 方法 展示 了 InputFormat 类 的 两 个 功能 : 
。 将 输入 文件 切 分 为 map 处 理 所 需 要 的 split; 
。 创建 RecordReader 类 ， 它 将 从 一 个 split 生 成 键 值 对 序列 。 


RecordReader 类 同样 也 是 org ,apache.hadoop.mapreduce 包 里 的 
抽象 类 。 


public abstract class RecordReader«Key, Value» implements Closeable 


{ 
public abstract void initialize(InputSplit split, TaskAttemptContext 


context) ; 
public abstract boolean nextKeyValue() 


throws 
public 
throws 
public 
throws 
public 
throws 
public 
} 


IOException, InterruptedException ; 
abstract Key getCurrentKey( ) 
IOException, InterruptedException ; 
abstract Value getCurrentValue() 
IOException, InterruptedException ; 
abstract float getProgress() 
IOException, InterruptedException ; 
abstract close() throws IOException ; 


为 每 个 split 创 建 一 个 RecordReader 实例 ， 该 实例 调用 
getNextKeyValue 并 返回 一 个 布尔 值 ， 该 值 指 明 下 一 个 键 值 对 是 否 可 
用 。 如 果 答 案 是 肯定 的 ，getKey 和 getValue 方法 被 用 于 分 别 访 问 键 和 
值 。 


因此 ， 组 合 使 用 InputFormat 和 RecordReader 可 以 将 任何 类 型 的 输入 
数据 转换 为 MapReduce 所 需 的 键 值 对 。 


3.15.3 


Hadoop 提 供 的 InputFormat 


Hadoop 在 org.apache.hadoop ,mapreduce.1Lib.input 包 里 提供 了 一 
些 TInputFormat 的 实现 。 


。FileInputFormat : 这 是 一 个 抽象 基 类 ， 它 可 以 作为 任何 基于 文件 
输入 的 父 类 。 


。SequenceFileInputFormat : 这 是 一 个 高 效 的 二 进 制 文件 格式 ， 
我 们 将 在 下 一 节 讨 论 它 。 


。TextInputFormat : 它 用 于 普通 文本 文件 。 


技巧 : 0.20 之 前 版 本 的 API 在 org .apache.hadoop.mapred 包 里 定义 
了 一 些 其 他 的 InputFormat 。 


请 注意 ，InputFormat 并 不 局 限于 从 文件 读 取 数据 ， 
FileInputFormat 本 身 就 是 InputFormat 的 子 类 。Hadoop 有 可 能 使 
用 不 基于 文件 的 数据 作为 MapReduce 作 业 的 输入 ， 常 见 的 数据 源 是 关系 数 
据 库 或 HBase 。 


3.15.4 Hadoop 提 供 的 RecordReader 


类 似 地 ，Hadoop 在 org.apache.hadoop.mapreduce.1ib.input 包 里 
也 提供 了 一 些 常见 的 RecordReader 实现 。 


e LineRecordReader : 这 是 RecordReader 类 对 文本 文件 的 默认 实 
现 ， 它 将 行 号 视 为 键 并 将 该 行内 容 视 为 值 。 

。SequenceFileRecordReader : 该 类 从 二 进 制 文件 SequenceFile 
读 取 键 / 值 


同样 ，0.20 版 本 之 前 的 API 在 org ,apache ,hadoop .mapred 包 里 提供 了 
其 他 RecordReader 类 ， 例 如 KeyValueRecordReader ， 它 们 没有 被 迁 
移 到 新 API 。 


3.15.5 OutputFormat 和 RecordWriter 


采用 类 似 模 式 ，org .apache.hadoop.mapreduce 包 里 的 
OutputFormat 和 Recordwriter 的 子 类 负责 共同 写 入 作业 输出 。 本 节 
内 容 不 讨论 它们 的 细节 ， 但 总 体 方法 是 相似 的 ， 尽 管 OutputFormat 为 验 
证 输出 规范 实现 了 更 为 复杂 的 API。 


BU. 如 果 指 定 的 输出 路 径 已 经 存在 ， 该 步骤 将 引发 作业 失败 。 如 果 你 
想 改 变 这 种 情况 ， 需 要 一 个 重 写 该 方法 的 OutputFormat 子 类 。 


< 一 


3.15.6 ”Hadoop 提 供 的 OutputFormat 


org.apache.hadoop.mapreduce.output 包 提供 了 下 列 OutputFormat 


类 。 


e File0utputFormat : 这 是 所 有 基于 文件 的 OutputFormat 的 基 类 。 


e NullOutputFormat : 这 古 一 个 虚拟 类 ， 它 丢弃 所 有 输出 并 对 文件 不 
做 任何 写 入 。 


。SequenceFileoutputFormat : 它 将 输出 写 入 二 进 制 
SequenceFile 。 


。TextOutputFormat : 它 把 输出 写 入 到 普通 文本 文件 。 


请 注意 ， 上 述 类 把 它们 所 需 的 Recordwriter 定义 为 内 部 类 ， 因 此 ， 不 存 
在 单独 实现 的 Recordwriter 类 。 


3.15.7. [s J Sequence files 


org. uu hadoop.io 包 里 的 SequenceFile 类 提供 了 高 效 的 二 进 制 
文件 格式 ， 它 经 常用 于 MapReduce 作 业 的 输出 。 尤 其 是 当 作业 的 输出 被 当做 
呈 一 个 作业 的 输入 时 。 Sequence 文件 有 如 下 几 个 优点 


。 作 为 二 进 制 文件 ， 它 们 本 质 上 比 文 本 文件 更 为 紧凑 ; 


。 它们 支持 不 同 层 面 的 可 选 压缩 ， 也 就 是 说 ， 可 以 对 每 条 记录 或 整个 split 
进行 压缩 ; 


。 该 文件 可 被 并 行 切 分 和 处 理 。 


最 后 一 个 特性 很 重要 ， 大 多 数 二 进 制 格式 〈 尤 其 是 压缩 或 加 密 文件 ) 是 

法 切 分 的 ， 必须 以 单独 的 线性 数据 流 的 形式 读 取 。 使 用 这 种 无 法 切 4 PAT 
件 作 为 MapReduce 作 业 的 输入 ， 意 味 着 需要 使 用 一 个 单独 的 mapper 处 理 整 个 
文件 ， 造 成 潜在 的 巨大 性 能 损失 。 在 此 情况 下 ， 最 好 使 用 可 切 分 的 格式 ， 
"lisequenceFile ， 或 者 在 无 法 避免 接收 其 他 格式 文件 的 情况 下 ， 执 行 预 
处 理 步 又 将 其 办 换 成 可 切 分 的 栋 式 。 这 需要 权衡 利弊 ， 因 为 文件 格式 转换 
也 需要 一 定 的 时 间 。 但 在 很 多 情况 下 ， 尤 其 是 处 理 复杂 的 map 任 务 时 ， 使 用 
可 切 分 格式 所 节省 的 时 间 将 超过 文件 格式 转换 的 时 间 。 


3.16 小结 


本 章 讲述 了 MapReduce 的 大 量 基 础 知识 ， 现 在 ， 我 们 具备 了 党 入 研究 
MapReduce 的 基础 。 特 别 是 ， 我 们 学 习 了 键 值 对 是 被 广泛 应 用 的 数据 模型 ， 
它 可 以 很 好 地 应 用 于 MapReduce 处 理 。 我 们 也 学 习 了 如 何 使 用 0.20 及 以 上 版 
本 的 Java API 编 写 mapper 和 reducer ° 


随后 ， 我 们 了 解 了 MapReduce 作 业 是 如 何 工作 的 ， 以 及 map 与 reduce 方法 
是 怎样 通过 大 量 的 协作 和 任务 调度 机 制 紧 密 结合 在 一 起 的 。 我 们 还 了 解 
到 ， 某 些 MapReduce 作 业 需 要 上 自 定 义 的 partitioner 或 combiner ° 


p uu 卖 取 数 据 并 将 输出 数据 写 入 文件 系 

。 它 使 用 InputFormat 和 0utputFormat 的 概念 将 文件 作为 整体 进行 
m 并 使 用 RecordReader 将 数据 格式 转化 为 键 值 对 ， 然 后 使 用 
Recordwriter 将 数据 格式 从 键 值 对 转换 为 所 需 格 式 。 


有 了 这 些 知识 ， 我 们 将 在 下 一 章 转 到 案例 学 习 。 该 案例 展示 了 如 何 持续 开 
发 和 改进 处 理 大 数据 集 的 MapReduce 程 序 。 


B4% ”开发 MapReduce 程 序 


既然 我 们 已 经 探索 了 MapReduce 技 术 ， 本 章 将 介绍 如 何 使 用 MapReduce 解 
决 实际 问题 。 特 别 是 ， 我 们 将 以 更 大 规模 的 数据 集 为 例 ， 探 索 使 用 
MapReduce 提 供 的 工具 分 析 数 据 集 的 方法 。 


本 章 包 括 以 下 内 容 : 

e Hadoop Streaming K E-fi& Hl ; 

。 UFOH di fX S 

。 使 用 Streaming 作 为 开发 或 调试 工具 ; 

。 在 一 个 作业 中 使 用 多 个 mapper; 

。 在 集群 上 高 效 共享 实用 程序 文件 和 数据 ; 

。 报告 作业 和 任务 的 状态 信息 及 可 用 于 调试 的 日 志 信 息 。 
本 章 不 仅 要 介绍 具体 的 工具 ， 同 时 也 要 介绍 如 何 分 析 新 数据 集 。 我 们 将 从 
探寻 如 何 使 用 脚本 编程 语言 辅助 MapReduce 进 行 原 型 设计 和 初步 分 析 入 手 。 
上 一 章 还 在 讲 Java API， 本 章 却 马上 换 了 另 一 种 语言 ， 这 似乎 看 起 来 很 奇 
怪 ， 但 我 们 的 目的 是 让 读者 意识 到 ， 可 以 使 用 不 同方 法 解决 所 面临 的 问 
题 。 虽 然 很 多 作业 没 必 要 用 Java API 以 外 的 其 他 语言 来 实现 ， 但 在 某 些 情况 
下 ， 使 用 其 他 方法 才 是 最 合适 的 。 相 信 这 些 技术 为 您 增加 了 新 的 备 选 工 
具 ， 并 且 有 了 这 些 经 验 ， 您 会 更 容易 知道 在 给 定 场 景 中 ， 哪 种 方法 才 是 最 
佳 解 决 方案 。 
4.1 使 用 非 Java 语 言 操 作 Hadoop 


我 们 前 面 提 到 过 ， 并 非 必须 使 用 Java 语 言 才能 编写 MapReduce 程 序 。 虽然 大 
多 数 程序 是 用 Java 编 写 的 ， 但 由 于 某 些 原因 ， 读 者 希望 或 需要 用 另 一 种 语言 
编写 nap 和 reduce 任 务 。 比 如 ， 读 者 有 一 些 现 有 代码 可 供 利 用 ， 或 者 需要 使 
用 第 三 方 的 二 进 制 文件 等 ， 原 因 不 一 而 足 却 又 合情合理 。 


Hadoop 提 供 了 一 些 辅助 非 Java 开 发 的 机 制 ， 其 中 主要 包括 Hadoop Pipes 和 
Hadoop Streaming 。 前 者 提供 了 Hadoop 的 原生 C++ 接口 ， 后 者 则 允许 将 任 
何 使 用 标准 输入 和 输出 的 程序 用 于 map 和 reduce 任 务 。 本 章 ， 我 们 将 大 量 使 
用 Hadoop Streaming ° 


4.1.1 Hadoop Streaming 工 作 原 理 


map 和 reduce 任 务 利 用 MapReduce Java API 提 供 实现 任务 功能 的 方法 。 这 些 
方法 将 其 参数 视 为 任务 输入 ， 并 通过 Context 对 象 输出 结果 。 这 是 一 个 明 
确 的 并 且 类 型 安全 的 接口 ， 但 是 专 为 Java 定 义 的 。 


Hadoop Streaming 采 用 了 不 同 的 方法 。 使 用 Streaming 编 写 的 map 任 务 每 次 从 
标准 输入 读 取 一 行内 容 作为 任务 输入 ， 并 将 任务 结果 输出 到 标准 输出 。 
reduce 任 务 执行 同样 的 操作 ， 而 且 其 数据 流 同 样 使 用 标准 输入 和 输出 。 


任何 可 以 读 写 标准 输入 和 输出 的 程序 都 可 以 用 于 Streaming， 例 如 已 编译 的 
7 Unixshell 脚 本 ， 或 用 像 Ruby 或 Python 这 样 的 动态 语言 编写 的 
予 等 


4.1.2 ”使 用 Hadoop Streaming 的 原因 


Streaming 最 大 的 优势 在 于 于 ， 使 用 它 可 以 比 使 用 Java 更 快 地 反复 党 试 不 同 的 

想法 。 与 “编译 /jar 提 区， ;的 Java 开 发 周期 不 同 ， 用 户 只 需 编写 脚本 ， 并 把 它 
们 作为 参数 传 给 Streaming jar 文 件 。 尤 其 是 当 对 新 数据 集 进 行 初步 分 析 或 答 
试 新 想法 的 时 候 ，Streaming 可 以 明显 加 快 开 发 进度 。 


动态 语言 和 静态 语言 各 有 所 长 ， 动 态 语言 适合 敏捷 开发 ， 而 静 仿 语言 具有 
运行 性 能 和 类 型 检查 的 优势 。 换 名 话说 ， Riu 言 有 的 ， 正 是 动态 语言 没 
有 的 ， 反 之 亦 然 。 当 使 用 Streaming 时 ， 动 态 语 言 的 缺点 同样 存在 。 因 此 ， 
e ALTRI T TERI 期 分 析 时 使 用 Streaming， 而 在 实现 运行 于 产品 集群 的 作业 
H Javail zi Ei 


本 章 中 ， 我 们 将 在 Streaming 例 子 中 使 用 Ruby 语 言 ， 但 这 只 是 个 人 喜好 。 如 


条 读者 喜欢 用 shell 脚 本 或 其 他 语言 ， 比 如 Python， 那 么 可 以 把 Ruby 脚 本 转 
换 成 目 己 选 择 的 语言 。 


4.2 ”实践 环节 : 使 用 Streaming 实 现 WordCount 


让 我 们 老 调 重 弹 ， 通 过 执行 下 列 步 又 使 用 Streaming 青 次 实现 WordCount 。 


1. 将 以 下 内 容 保存 为 wcmapper .rb 文件。 


Z/bin/env ruby 
while line - gets 
words = line.split("Nt") 


words.each( |word| puts word.strip+"\t1"}} 
end 


2. 通过 执行 下 列 命令 使 vcmapper . rb 成 为 可 执行 文件 。 


$ chmod +x wcmapper.rb 


3. 将 以 下 文件 保存 为 wcreducer.rb » 


Z!/usr/bin/env ruby 


current - nil 
count = 0 


while line = gets 
word, counter - line.split("Nt") 


if word -- current 
count = count+1 
else 
puts current+"\t"+count.to_s if current 
current - word 
count = 1 
end 
end 
puts current-"Nt"«count.to s 


4. 通过 执行 下 列 命令 使 vcreducer .rb 成 为 可 执行 文件 。 


$ chmod +x wcreducer.rb 


5. 利用 上 一 章 的 数据 文件 ， 以 Streaming 作 业 的 形式 执行 脚本 。 


$ hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.0.3.jar 

-file wcmapper.rb -mapper wcmapper.rb -file wcreducer.rb 

-reducer wcreducer.rb -input test.txt -output output 

packageJobJar: [wcmapper.rb, wcreducer.rb, /tmp/hadoop- 
hadoop/hadoop-unjar1531650352198893161/] [] /tmp/streamjob937274081293220534.jar 
tmpDir-null 

12/02/05 12:43:53 INFO mapred.FilelnputFormat: Total input paths to process : 1 
12/02/05 12:43:53 INFO streaming.StreamJob: getLocalDirs(): [/var/ 
hadoop/mapred/1local] 

12/02/05 12:43:53 INFO streaming.StreamJob: Running job:job 201202051234 0005 


12/02/05 12:44:01 INFO streaming.StreamJob: map 10096 reduce 096 

12/02/05 12:44:13 INFO streaming.StreamJob: map 10096 reduce 10096 
12/02/05 12:44:16 INFO streaming.StreamJob: Job complete:job 201202051234 0005 
12/02/05 12:44:16 INFO streaming.StreamJob: Output: wcoutput 


6. 检查 结果 文件 。 


$ hadoop fs -cat output/part-00000 


原理 分 析 
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首先 ， 我 们 创建 了 一 个 脚本 ， 它 将 作为 我 们 的 mapper。 该 脚本 使 用 gets EN 
数 从 标准 输入 中 读 取 一 行 ， 将 该 行 切 分 为 词语 ， 并 使 用 puts 函数 将 词 与 值 
1 写 到 标准 输出 。 然 后 ， 我 们 把 该 脚本 做 成 可 执行 文件 。 


本 例 中 ，reducer 则 稍微 复杂 一 些 ， 其 原因 将 在 下 一 世 中 描述 。 无 论 如 何 ， 
它 按照 我 们 的 期 望 执 行 了 作业 ， 对 每 个 单词 出 现 的 次 数 进行 计数 ， 从 标准 
输入 读 取 数据 ， 并 将 输出 的 最 终 值 提交 到 标准 输出 。 同 样 ， 我 们 把 该 脚本 
做 成 可 执行 文件 。 


需要 注意 的 是 ， 在 这 两 种 情况 下 ， 我 们 隐 式 地 使 用 了 前 几 章 讨论 的 Hadoop 
输入 和 输出 格式 。TextInputFormat 属性 处 理 源 文件 ， 并 每 次 为 map 脚 
本 提供 一 行文 本 。 相 反 地 ，TextoutputFormat 属性 确保 准确 无 误 地 把 
reduce 任 务 的 输出 写 入 文本 数据 。 当 然 ， 我 们 可 以 根据 需要 进行 修改 。 


接 下 米 ， 我 们 通过 相当 繁琐 的 命令 行将 Streaming 作 业 提 交 到 Hadoop。 每 个 
脚本 文件 之 所 以 被 指定 了 两 次 ， 是 因为 每 个 节点 上 无 法 使 用 的 文件 都 必须 
由 Hadoop 打 包 并 在 集群 内 部 流转 ， 注 意 需 要 通过 -file 选项 来 指定 。 我 们 
还 需要 告诉 Hadoop， 分 别 由 哪个 脚本 文件 担任 mapper 和 reducer 角 色 。 


最 后 ， 我 们 查看 作业 的 输出 ， 它 应 当 与 前 述 基 于 Java 实 现 WordCount 的 输出 
一 致 o 


在 作业 中 使 用 Streaming 的 区 别 

使 用 Streaming 的 WordCount mapper 看 起 来 比 Java 版 本 简单 很 多 ， 但 reducer 的 
逻辑 似乎 更 为 复 洒 。 这 是 为 什么 呢 ? 原因 是 ， 当 使 用 Streaming 时 ，Hadoop 
和 任务 之 间 的 隐 含 协议 发 生 了 变化 。 


在 Java 中 ， 我 们 知道 ， 对 于 每 个 输入 键 值 对 ，map( ) 方法 都 会 被 调用 一 
次 ; 对 于 每 个 键 及 其 相应 的 一 系列 值 ，reduce( ) 方法 也 会 分 别 被 调用 。 


在 Streaming 中 ， 不 再 存在 map 或 reduce 方法 的 概念 ， 我 们 只 能 自己 编写 
脚本 处 理 收 到 的 数据 流 。 这 改变 了 用 户 编写 reducer 的 方式 。 在 Java 中 ， 
Hadoop 负 责 为 每 个 键 的 对 应 值 进行 分 组 ， 每 次 调用 reduce 方法 都 会 接收 
一 个 键 和 与 之 对 应 的 所 有 值 列表 。 在 Streaming 中 ， 每 个 reduce 任务 的 实 
例 每 次 接收 一 个 单独 的 未 分 组 的 值 。 


Hadoop Streaming 对 键 进行 了 排序 。 例 如 ， 假 如 mapper 输 出 如 下 数据 ; 


Hadoop 仍 然 收 集 每 个 键 的 值 ， 并 确保 每 个 键 只 传递 给 一 个 reducer。 换 句 话 
说 ，reducer 得 到 若干 键 的 所 有 值 ， 它 们 已 被 组 合 在 一 起 。 然 而 ， 它 们 不 会 
被 打包 到 单个 reducer 执 行 ， 也 就 是 说 ， 每 次 执行 一 个 键 ， 与 Java API 中 完全 


这 就 解释 了 Ruby reducer 使 用 的 机 制 ， 它 首先 为 当前 的 词语 设置 空 的 默认 
值 ， 然 后 在 读 取 每 行内 容 后 ， 确 定 该 行 的 键 与 前 一 行 的 键 是 否 相 同 。 如 果 
答案 是 肯定 的 ， 累 加 该 键 的 值 。 否 则 ， 保 持 前 一 个 键 的 值 不 变 ， 其 最 终结 
果 被 发 送 到 标准 输出 ， 并 开始 为 新 词 计数 。 


前 几 章 我 们 一 直 在 说 Hadoop 为 我 们 做 了 多 少 多 少 工 作 ， 好 像 有 多 复杂 似 

的 。 但 只 要 写 几 个 Streaming reducer， 你 就 会 发 现实 际 上 没 那 么 复杂 。 同 时 
请 记 住 ，Hadoop 仍 然 负 责 同 不 同 map 任 务 分 配 split， 以 及 将 给 定 键 的 对 应 值 
发 送 给 同一 个 reducer。 这 些 行 为 可 以 通过 配置 更 改 mapper 和 reducer 的 数量 
来 改变 ， 束 像 使 用 Java API 一 样 。 


43 “分析 大 数据 集 


有 了 使 用 Java 和 Streaming 编 写 MapReduce 作 业 的 能 力 之 后 ， 现 在 我 们 将 探讨 
一 个 比 之 前 见 过 的 任何 数据 集 都 更 有 意义 的 数据 集 。 我 们 将 讨论 如 何 分 析 
大 数据 集 ， 以 及 Hadoop 可 以 解答 的 天 于 大 数据 集 的 各 种 问题 。 

4.3.1 ”获取 UFO 目 击 事件 数据 集 

我 们 将 使 用 一 个 公共 领域 数据 集 ， 它 包含 了 超过 60 000 次 UEFO 有 目击 事件 的 数 
据 。 这 个 数据 集 由 InfoChimps 托 管 在 


http://www.infochimps.com/datasets/60000-documented-ufo-sightings-with-text- 
descriptions-and-metada 。 


要 下 载 这 个 数据 集 ， 需 要 注册 一 个 免费 的 InfoChimps 账 号 。 

这 些 数据 由 一 系列 包含 下 列 字 段 的 UFO 目 击 事件 记录 组 成 。 

1. Sighting date: UFO 目 击 事件 发 生 的 时 间 。 

2. Recorded date : 报告 目击 事件 的 日 期 ,通常 与 目击 事件 时 间 不 同 。 
3. Location: 目击 事件 发 生 的 地 点 。 

4. Shape : UFO 形 状 的 简要 描述 ， 例 如 ， 萎 形 、 发 光 体 、 圆 简 状 。 
5. Duration: 目击 事件 的 持续 时 间 。 

6. Description: 目击 事件 的 大 致 描述 。 


下 载 完 成 后 ， 读 者 会 发 现 该 数据 有 多 种 格式 。 我 们 将 使 用 ,tsv ( 制 表 符 分 
隔 值 ) 版本。 


432 了解 数据 集 


当面 临 一 个 新 数据 集 的 时 候 ， 通 党 很 难 感 知 其 性 质 、 广 度 和 涉及 数据 的 质 
量 。 在 着 手 后 续 分 析 之 前 ， 通 沼 需 要 先 搞 清楚 几 个 问题 。 


。 数据 集 有 多 大 ? 
。 记录 的 完整 性 如 何 ? 
。 记录 与 我 们 期 竺 的 格式 匹配 程度 如 何 ? 


第 一 个 问题 是 一 个 简单 的 数据 规模 的 问题 。 我 们 谈论 的 是 数 百 、 数 千 、 数 
百 万 ， 或 是 更 多 的 记录 吗 ? 第 二 个 问题 是 询问 数据 的 完整 性 。 假 如 你 希望 
每 条 记录 有 10 个 字段 (如果 是 结构 化 或 半 结 构 化 数据 ) ， 那 么 有 多 少 条 记 
录 的 关键 子 段 非 空 ? 最 后 一 个 问题 在 这 一 点 上 进行 扩展 ， 记 录 的 表现 形式 
与 你 所 期 望 的 数据 格式 和 展示 形式 是 否 吻合 ? 


44 实践 环节 : 统计 汇总 UFO 数 据 


现在 我 们 有 了 这 些 数据 ， 让 我 们 先 统计 一 下 数据 规模 ， 以 及 多 少 条 记录 是 
不 完整 的 。 


1. 以 ufo .tsv 为 名 在 HDFS 上 保存 UFO** 制 表 符 分 隔 值 ** (TSV) 数据 
文件 的 同时 ， 将 下 列 内 容 保 存 为 Summarymapper . rb 文件 。 


&!/usr/bin/env ruby 


while line - gets 
puts "totalNt1" 
parts - line.split("Nt") 
puts "badlineNti1" if parts.size !- 6 
puts "sightedNti1" if !parts[O0].empty? 
puts "recordedNt1" if !parts[1].empty? 
puts "locationNt1" if !parts[2].empty? 
puts "shape\t1" if !parts[3].empty? 
puts "durationNt1" if !parts[4].empty? 
puts "descriptionNti1" if !parts[5].empty? 
end 


2. 执行 下 列 命令 ， 使 summarymapper .rb 成 为 可 执行 文件 。 


$ chmod +x summarymapper.rb 


3. 使 用 Streaming 执 行 作 业 ， 如 下 所 示 。 


$ hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.0.3.jar 
-file summarymapper.rb -mapper summarymapper.rb -file wcreducer.rb 


-reducer wcreducer.rb -input ufo.tsv -output ufosummary 


4. 获取 汇总 数据 。 


$ hadoop fs -cat ufosummary/part 0000 


原理 分 析 
请 记 住 ， 我 们 的 UFO 目 击 事件 应 该 有 前 述 的 6 个 字段 。 它 们 分 别 是 
。 目击 事件 的 日 期 
。 报告 目击 事件 的 日 期 
。 目击 事件 的 地 点 
。 UFO 的 形状 
。 目击 事件 的 持续 时 间 
。 事件 的 大 致 搞 述 
mapper 处 理 文件 ， 除 识别 潜在 的 不 完整 记录 ， 还 统计 了 记录 总 数 。 
在 处 理 文件 时 ， 我 们 通过 简单 地 计数 遇 到 多 少 不 同 的 记录 ， 得 到 了 记录 总 
数 。 有 一 些 记录 要 么 少 于 6 个 字段 ， 要 么 至 少 有 一 个 字段 的 值 为 空 ， 在 处 理 
文件 时 通过 标记 这 些 记录 来 识别 出 潜在 的 不 完整 记录 。 
因此 ，mapper 在 完成 文件 处 理 任务 时 ， 读 取 每 一 行 并 完成 了 以 下 3 项 工作 。 
。 输出 已 被 处 理 的 记录 总 数 ， 该 值 随 着 程序 运行 不 断 递 增 。 
。 以 制 表 符 来 分 隔 记录 ， 并 输出 少 于 6 个 字段 的 记录 总 数 。 


。 对 6 个 预期 字段 ，mapper 输 出 字段 值 非 空 〈 也 就 是 该 字段 有 数据 ) 的 字 
段 数 ， 尽 管 这 与 数据 质量 没有 关系 。 


我 们 故意 把 mapper 编 写成 输出 (token, count) 的 形式 。 这 样 就 能 够 使 
用 以 前 实现 的 WordCount reducer 作 为 这 个 作业 的 reducer。 当 然 ， 还 有 更 高 

0 E 
是 值得 的 。 


在 写作 本 书 时 ， 本 作业 的 输出 结果 如 下 所 示 。 


badline324 
description61372 


total61377 


从 这 些 数 字 我 们 可 以 看 出 ， 共 有 61 300 条 记录 。 这 些 记 录 都 提供 了 目击 事件 
发 生 的 时 间 、 报 告 时 间 ， 以 及 目击 事件 发 生地 这 些 字段 的 值 。 大 约 58 
000~59 000 条 记录 有 形状 和 持续 时 间 的 值 ， 几 乎 所 有 记录 都 有 相关 描述 。 


当 用 制 表 符 分 割 时 ， 我 们 发 现 有 372 行 记录 的 字段 不 足 6 个 。 然 而 ， 因 为 只 
有 5 条 记录 的 “描述 ”字段 没有 值 ， IRH DERK PIRN DERD, 
而 是 太 多 了 “。 当 然 ， 我 们 可 以 基于 这 个 事实 调整 mapper 以 收集 详细 信息 

这 可 能 是 由 文本 摘 述 使 用 的 制 表 符 所 致 。 不 过 束 眼 下 的 分 析 而 富 我 们 站 
且 认 为 大 多 数 记录 都 有 6 个 字段 ， 而 且 每 个 字段 都 有 值 好 了 “。 至 于 每 条 记录 
中 是 不 是 有 多 余 的 制 表 符 ， 先 不 管 了 。 


调查 UFO 形 状 


在 这 些 报告 的 所 有 字段 中 ， 形 状 是 最 直接 引起 我 们 兴趣 的 ， 因 为 基于 i 
段 信息 ， 我 们 可 以 对 数据 采取 一 些 有 意思 的 分 组 方式 。 


45 实践 环节 : 统计 形状 数据 


a 0 现在 让 我 们 对 UFO 形 状 数据 进行 针对 
Zu R 


1. 将 下 列 代 码 保存 为 Shapemapper .rb 文件 。 


NN 
A 


#!/usr/bin/env ruby 


while line = gets 
parts = line.split("\t") 
if parts.size == 6 
shape = parts[3].strip 
puts shape+"\t1" if !shape.empty? 


end 
end 


2. Jjshapemapper .rb 文件 增加 可 执行 权限 。 


$ chmod +x shapemapper.rb 


3. 再 次 使 用 WordCount reducer 执 行 这 个 作业 。 


$ hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.0.3.jarr 
--file shapemapper.rb -mapper shapemapper.rb -file wcreducer.rb 


-reducer wcreducer.rb -input ufo.tsv -output shapes 


4. 获取 形状 数据 信息 。 


$ hadoop fs -cat shapes/part-00000 


原理 分 析 


本 例 使 用 的 mapper 相 当 人 简单 。 它 把 每 条 记录 按 其 组 成 字段 分 开 ， 丢 弃 不 足 6 
个 字段 的 记录 ， 使 用 计数 絮 统 计 形 状 字 有 段 非 空 的 记录 数 并 输出 该 值 。 


出 于 本 目的， 我 们 乐于 忽略 任何 与 期 望 的 规则 不 匹配 的 记录 。 也 许 一 次 
UFO 目 击 事件 的 记录 将 彻底 证 明 UFO 是 确实 存在 的 ， 但 即便 如 此 ， 一 次 记 
录 不 可 能 对 我 们 的 分 析 有 太 大 影响 。 在 决定 丢弃 一 些 记 杂 之前， 应 仔细 考 
虚 一 下 不 同 记 录 的 潜在 可 能 值 。 如 采 读 者 投身 于 更 关注 某 种 变化 趋势 的 聚 
类 工作 ， 那 么 个 别 记录 可 能 无 足 轻重 。 但 是 在 个 别 值 可 能 闫 重 影响 分 析 结 
论 或 者 必须 考虑 在 内 的 情况 下 ， 不 能 弃 用 这 些 记 杂 ， 最 好 试 着 小 心 绝 区 地 
解析 并 恢复 它们 。 我 们 将 在 第 6 章 中 对 这 种 权衡 进行 更 多 的 讨论 。 

像 往 单一 样 ， 将 mapper 设 置 可 执行 属性 并 运行 生成 的 作业 后 ， 结 采 和 表明 有 


1 
业 的 输出 。 


changed1 changing1533 chevron758 cigar1774 
Circle5250 cone265 crescent2 cross177 


cylinder981 delta8 diamond909 disk4798 
dome1 egg661 fireball3437 flare1 

flash988 formationi775 hexagoni light12140 
other4574 oval2859 pyramid1 rectangle957 
round2 sphere3614 teardrop592 triangle6036 
unknown4459 


正如 我 们 所 看 到 的 ， 不 同形 状 的 目击 事件 发 生 的 频率 相差 很 大 。 某 些 形状 


的 UFO 目 击 事件 只 出 现 过 1 次 ， 如 pyramid 〈 金 字 塔 ) ， 而 light (发 光 体 ) 出 
现 的 频率 超过 了 全 部 目击 事件 的 115。 考 虑 到 许多 UFO 目 击 事件 发 生 在 夜 
晚 ， 可 能 有 人 认为 发 光 体 的 描述 并 不 是 非常 有 用 ， 或 者 不 够 具体 。 如 果 再 
算 上 other (其 他 ) 和 unknown (RA) ， 我 们 看 到 58 000 次 形状 报告 中 约 有 
EE E e 我 们 并 不 打算 刨 根 究 底 或 者 做 其 他 研 
所 以 到 底 有 多 少 次 目击 事件 的 形状 是 有 用 的 这 一 点 并 不 十 分 重要 。 但 

SEHE 我 们 要 开始 从 这 些 角度 考虑 数据 。 甚 至 通过 这 些 类 型 的 统计 分 
析 ， 我 们 能 够 洞察 数据 本 质 和 分 析 结 论 的 质量 。 例 如 ， 我 们 已 经 发 现在 61 
000 次 目击 事件 中 ， 只 有 58 000 次 事件 报告 的 形状 字段 非 空 ， 而 这 其 中 又 有 
21 000 次 目 击 事件 的 形状 字段 是 含糊 值 。 这 样 ， 我 们 就 知道 61 000 次 目击 事 
件 的 样本 集 只 提供 了 37 000 个 可 能 开展 工作 的 形状 报告 。 如果 你 的 分 析 
建立 在 少量 样本 基础 之 上 ， 那 么 一 定 要 进行 这 种 前 期 统计 以 确定 数据 集 

否 能 满足 实际 需要 。 


46 ”实践 环节 : 找 出 目击 事件 的 持续 时 间 与 UFO 形 
状 的 关系 
让 我 们 稍 加 详细 地 分 析 形 状 数 据 。 我 们 想 知 道 ， 在 目击 事件 的 持续 时 间 与 
UFO 形 状 之 间 是 否 存在 某 种 关联 。 也 许 雪茄 状 UFO 比 其 他 形状 UFO 持 续 的 
时 间 更 长 ， 又 或 许 UFO 编 队 的 持续 时 间 总 是 固定 的 。 

1. 保存 下 列 内 容 为 shapetimemapper,rb 文 件 。 


&!/usr/bin/env ruby 


pattern - Regexp.new / Nd* ?((min)|(sec))/ 


while line - gets 
parts = line.split("Nt") 
if parts.size -- 6 


shape = parts[3].strip 

duration - parts[4].strip.downcase 
if !shape.empty? && !duration.empty? 
match = pattern.match(duration) 


time = / Nd*/.match(match[0]) [0] 
unit - match[1] 

time - Integer(time) 

time - time * 60 if unit -- "min" 
if unit -- "min" 

puts shapes" Nt"«-time.to s 

end 

end 

end 


2. 通过 执行 以 下 命令 把 shapetimemapper .rb 文件 做 成 可 执行 文件 。 


$ chmod +x shapetimemapper.rb 


3. 保存 下 列 内 容 为 shapetimereducer,rb 文 件 。 


&!/usr/bin/env ruby 


current - nil 
min = 0 
max = 0 
mean = 0 
total 
count 


0 
0 


while line = gets 
word, time = line.split("Nt") 
time - Integer(time) 


if word -- current 

count = count+1 

total = total-time 

min = time if time < min 
max = time if time > max 
else 

puts current-"Nt"«min.to s*" "+max.to_s+" "«(total/count).to s if 
current 

current - word 

count = 1 

total - time 

min - time 


max = time 

end 

end 

puts current-"Nt"-min.to s-" "+max.to_s+" "«(total/count).to s 


4. 通过 执行 以 下 命令 把 shapetimereducer .rb 做 成 可 执行 文件 。 


$ chmod +x shapetimereducer.rb 


5. 运行 作业 。 


$ hadoop jar hadoop/contrib/streaminghHadoop-streaming-1.0.3.jar 
-file shapetimemapper.rb -mapper shapetimemapper.rb -file 
shapetimereducer.rb -reducer shapetimereducer.rb -input ufo.tsv 
-output shapetime 


6. 获取 结果 。 


$ hadoop fs -cat shapetime/part-00000 


原理 分 析 


由 于 持续 时 间 字段 的 原因 ，mapper 比 之 前 的 例子 稍微 复 洒 一 些 。 快 速 浏 唤 
一 些 示例 记录 ， 我 们 发 现 部 分 记录 的 持续 时 间 字 段 值 如 下 。 


15 seconds 
2 minutes 
2 min 


2minutes 
5-10 seconds 


换 句 话说， 持续 时 间 字 段 的 值 既 可 能 是 时 间 区 间 ， 也 可 能 是 绝对 的 时 间 

值 ， 而 且 其 格式 不 同 ， 时 间 单 位 不 一 致 。 为 简单 起 见 ， 我 们 决定 对 数据 进 
行 有 限 解 释 : 如 采 存 在 绝对 的 时 间 值 ， 我 们 束 采 用 该 值 ， 否 则 采用 时 间 区 
间 的 上 限 作为 某 次 UFO 目 击 事件 的 持续 时 间 。 假 设 时 间 单 位 用 min 或 者 sec 
字符 串 表 示 ， 并 将 所 有 的 时 间 都 转 为 以 秒 为 单位 。 借 助 一 些 正 则 表达 式 ， 


我 们 依照 上 述 规 则 分 解 持续 时 间 字 段 的 值 ， 并 将 其 转换 为 以 秒 为 单位 。 请 
再 次 注意 ， 我 们 倘 单 地 弃 用 那些 与 预期 规则 不 一 致 的 记录 ， 当 然 这 个 做 法 
不 一 定 总 是 合适 的 。 


遵循 与 之 前 示例 中 的 reducer 相 同 的 模式 ， 从 一 个 默认 键 开始 读 取 该 链 的 
值 ， 直 到 过 到 一 个 新 的 键 。 在 这 种 情况 下 ， 我 们 想 要 获取 每 种 形状 的 UFO 
i 的 极 小 值 、 极 大 值 、 平 均值 ， 因 此 需要 使 用 大 量变 量 来 跟踪 所 需 


请 记 住 ，Streaming reducer 需 要 处 理 多 个 键 及 与 每 个 键 对 应 的 一 系列 值 ， 当 
新 一 行 的 键 发 生变 化 时 ，reducer 需 要 识别 这 个 变化 ， 因 此 ， 需 要 标识 已 处 
理 的 前 一 个 键 的 最 后 一 个 值 。 与 此 相反 ，Java reducer 更 简单 一 些 ， 每 次 执 
行 中 仅 处 理 一 个 键 的 关联 值 。 


把 mapper 和 reducer 都 做 成 可 执行 文件 之 后 ， 运 行 本 作业 并 获得 如 下 结果 。 
这 些 结果 中 除去 了 目击 次 数 少 于 10 次 的 UFO 形 状 ， 而 且 为 节省 空间 ， 输 出 


m 


更 为 紧 赎 。 紧 跟 每 个 形状 的 几 个 数字 分 别 是 其 持续 时 间 的 最 小 值 、 最 大 值 
以 及 平均 值 。 


changingO 5400 670 chevrong 3600 333 
cigarO 5400 370 circleO 7200 423 
coneO 4500 498 cross2 3600 460 
cylinderO 5760 380 diamondO 7800 519 
diskO 5400 449 eggO 5400 383 
fireballO 5400 236 flashO 7200 303 
formationO 5400 434 lightO 9000 462 
otherO 5400 418 ovalO 5400 405 
rectangleO 4200 352 sphereO 14400 396 
teardropO 2700 335 triangleO 18000 375 
unknownO 6000 470 


令 人 惊奇 的 是 ， 所 有 形状 的 平均 持续 时 间 的 变化 范围 相对 较 小 。 大 多 数 
UFO 目 击 事件 的 平均 持续 时 间 在 350~430 秒 之 间 。 而 且 有 趣 的 是 ， 我 们 也 看 
到 ，fireball (KER) 的 平均 持续 时 间 最 短 ，changing (变化 不 定 ) 的 平均 持 
续 时 间 最 长 ， 这 两 者 在 某 种 程度 上 都 符合 人 的 直觉 。 火 球 嘛 ， 当 然 不 会 持 
续 太 久 ， 而 变化 不 定 的 物体 可 能 需要 较 长 时 间 人 们 才能 注意 到 它 的 变化 。 


在 Hadoop 外 部 使 用 Streaming 脚 本 


最 后 一 个 例子 的 mapper 和 reducer 更 为 复杂 ， 它 很 好 地 说 明了 使 用 Streaming 
帮助 MapReduce 开 发 的 另 一 种 方法 : 在 Hadoop 外 部 执行 Streaming 脚 本 。 


通常 ， 在 MapReduce 开 发 过 程 中 使 用 产品 数据 示例 来 测试 代码 是 一 种 较 好 的 
做 法 。 但 在 HDFS 上 使 用 Java 编 写 map 和 reduce 任 务 使 调试 问题 或 改进 复杂 你 
辑 变 得 很 困难 。 而 使 用 从 命令 行 读 取 输 入 的 map 和 reduce 任 务 ， 读 者 可 以 直 
接 用 一 些 数 据 测试 它们 ， 快 速 从 结果 中 得 到 反馈 。 如 有 果 读 者 的 开发 环境 可 
以 集成 Hadoop 或 者 在 独立 模式 下 使 用 Hadoop， 问 题 是 最 少 的 。 记 住 ， 

户 在 Hadoop 外 部 使 用 脚本 ， 没 准 哪 一 天 你 就 能 用 上 这 个 技 


在 开发 这 些 脚本 的 时 候 ， 作 者 注意 到 ， 在 他 使 用 的 UFO 数 据 文件 中 ， 最 后 
一 组 记录 的 数据 结构 化 程度 要 优 于 文件 开头 部 分 数据 。 使 用 mapper 执 行 快 
速 测试 只 需 使 用 如 下 命令 : 


$ tail ufo.tsv | shapetimemapper.rb 


这 个 方法 可 被 应 用 到 使 用 map 和 reduce 脚 本 的 整个 工作 流程 。 
47 实践 环节 : 在 命令 行 中 执行 形状 /时 间 分 析 


通过 本 地 命令 行 的 方式 执行 这 种 数据 分 析 的 方法 可 能 不 是 很 明显 ， 因 此 我 
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对 存储 在 本 地 文件 系统 的 UFO 数 据 文件 ， 执 行 下 列 命令 : 


$ cat ufo.tsv | shapetimemapper.rb | sort| shapetimereducer.rb 


原理 分 析 


短 短 的 一 句 Unix 命 令 行 产 生 的 输出 ， 却 与 之 前 完整 的 MapReduce 作 业 的 输出 
一 模 一 样 ， 人 简直 不 可 思议 。 详 细 分 析 上 壕 命 令 所 执行 的 控 作 ， 就 会 明白 其 
原因 。 

首先 ， 将 输入 文件 按 行 发 送 给 mapper， 每 次 一 行 。 这 个 步 又 的 输出 被 传 到 
Unix sort 工 具 ， 经 过 排序 的 输出 又 被 按 行 传 给 reducer。 当然 ， 这 是 常用 
MapReduce 作 业 流 程 的 简化 表示 。 

那么 ， 显 而 易 见 的 问题 是 ， 如 果 我 们 能 使 用 命令 行进 行 等 效 分 析 ， 为 什么 
还 要 用 Hadoop 呢 ?答案 依然 照旧 一 一 大 数据 处 理 。 这 种 简单 的 方法 可 以 有 


效 处 理 类似 UFO 有 目击 事件 这 样 大 小 的 数据 文件 ， 这 个 文件 虽 不 算 小 ， 也 只 
有 71 MB。 今 天 ， 随 便 找 一 块 便 盘 就 可 以 容纳 数 干 份 这 样 的 数据 集 。 


那么 ， 如 果 数 据 集 大 小 是 71 GB ， 甚 至 是 71 TB， 该 怎么 办 呢 ? 在 后 一 种 情 
况 下 ， 至 少 需要 将 数据 分 布 在 多 台 主 机 ， 然 后 决定 如 何 切 分 数据 ， 组 合 部 
分 答案 ， 并 且 处 理 遇 到 的 不 可 避免 的 故障 。 换 句 话说， 这 时 候 就 需要 类 似 
Hadoop 这 样 的 工具 了 » 


然而 ， 也 不 要 小 看 使 用 类 似 的 命令 行 工 具 ， 这 些 方法 应 当 在 MapReduce 开 发 
过 程 中 得 到 民 好 使 用 。 


使 用 Java 分 析 形 状 和 地 点 


现在 ， 我 们 考虑 用 Java MapReduce API 对 UFO 目 击 事件 报告 中 的 形状 和 地 点 
数据 进行 分 析 。 


在 开始 编写 代码 之 前 ， 回 想 一 下 前 面 是 如 何 分 析 UFO 目 击 事件 数据 集 的 各 
个 字段 的 。 之 前 的 mapper 有 一 个 通用 的 模式 。 


。 丢弃 已 损坏 记录 ° 
。 处 理 有 效 记 录 ， 提 取 感 兴趣 的 字段 。 
。 针 对 这 些 记录 ， 输 出 我 们 所 关注 的 数据 。 


现在 ， 假 如 我 们 打算 编写 Java mapper 来 分 机 UFO 目 击 事件 发 生 的 地 点 ， 之 
后 可 能 分 析 报 告 时 间 ， 我 们 将 遵循 类 似 的 模式 。 那 么 ， 我 们 是 否 可 以 避免 
由 此 产生 的 代码 重复 问题 呢 ? 


答案 是 肯定 的 ， 通 过 使 用 
org.apache.hadoop.mapred.lib.ChainMapper 即 可 解决 该 问题 。 
ChainMapper 类 可 以 顺序 执行 多 个 mapper， 而 且 最 后 的 mapper 输 出 会 传递 
给 reducer。ChainMapper 不 仅 适 用 于 这 种 数据 清理 ， 而 且 在 分 析 特 定 作业 
时 ， 先 通过 它 执 行 多 个 map 型 任务 再 应 用 reducer 的 做 法 也 很 常见 。 


这 种 做 法 需要 编写 一 个 校 验 mapper， 它 可 用 于 将 来 所 有 的 字段 分 析 作 业 。 
校 验 mapper 会 丢弃 错误 记录 行 ， 只 将 有 效 的 行 传 入 实际 的 业务 逻辑 
mapper ° 这样 的 话 ， 目 前 的 业务 逻辑 mapper 束 可 以 专注 于 分 析 数 据 而 不 用 
担心 粗 粒 度 的 校 验 。 


另 一 种 可 供 选 择 的 做 法 是 ， 在 目 定 义 的 InputFormat 类 中 验证 数据 并 丢弃 
无 效 记录 。 哪 一 种 方法 更 合理 取决 于 用 户 的 特定 情况 。 


链 里 的 每 个 mapper 都 会 在 一 个 独立 的 JVM 中 执行 ， 所 以 不 必 担 心 使 用 多 个 
mapper 会 增加 文件 系统 的 IO 人 负载。 


实践 环节 : 使 用 ChainMapper 进 行 字 段 验 证 /分 


让 我 们 在 作业 中 使 用 ChainMapper 类 验证 记录 是 否 有 效 。 
1. 在 UFORecordvalidationMapper, java 文件 中 创建 如 下 类 。 


import java.io.IOException; 
import org.apache.hadoop.io.* ; 
import org.apache.hadoop.mapred.* ; 
import org.apache.hadoop.mapred.lib.* ; 
public class UFORecordValidationMapper extends MapReduceBase 
implements Mapper 
t 
public void map(Longwritable key, Text value, 

OutputCollector output, 

Reporter reporter) throws IOException 

1 

String line - value.toString(); 

if (validate(line)) 
output.collect(key, value); 
J 
private boolean validate(String str) 
String[] parts = str.split("\t") ; 
if (parts.length != 6) 
return false ; 
return true ; 

} 


2. 使 用 下 列 代码 创建 UFOLocation, java 文件 。 


import java.io.IOException; 
import java.util.Iterator ; 
import java.util.regex.* ; 


import org.apache.hadoop.conf.* ; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.* ; 
import org.apache.hadoop.mapred.* ; 


import org.apache.hadoop.mapred.lib.* ; 


public class UFOLocation 


{ 


public static class MapClass extends MapReduceBase 
implements Mapper 


{ 


private final static Longwritable one = new Longwritable(1); 
private static Pattern locationPattern - Pattern.compile( 
"[a-zA-Z] (23 [^a-zA-Z]*$") 


public void map(LongWwritable key, Text value, 
OutputCollector output, 
Reporter reporter) throws IOException 
t 
String line - value.toString(); 
String[] fields = line.split("Nt") 
String location - fields[2].trim() ; 


if (location.length() »- 2) 


{ 

Matcher matcher = locationPattern.matcher(location) ; 

if (matcher.find() ) 

t 

int start - matcher.start() ; 
String state = location.substring(start,start*2); 
output.collect(new Text(state.toUpperCase()), One); 
} 
} 
} 

} 
public static void main(String[] args) throws Exception 
{ 


Configuration config = new Configuration() ; 
JobConf conf - new JobConf(config, UFOLocation.class); 
conf.setJobName( "UFOLocation"); 


conf.setOutputKeyClass(Text.class); 
conf.setOutputValueClass(Longwritable.class); 


JobConf mapconfi = new JobConf(false) ; 
ChainMapper.addMapper( conf, UFORecordValidationMapper.class, 
Longwritable.class, Text.class, LongWritable.class, 
Text.class, true, mapconf1) ; 


JobConf mapconf2 - new JobConf(false) ; 
ChainMapper.addMapper( conf, MapClass.class, 
Longwritable.class, Text.class, 

Text.class, Longwritable.class, true, mapconf2) ; 
conf.setMapperClass(ChainMapper.class); 
conf.setCombinerClass(LongSumReducer.class); 
conf.setReducerClass(LongSumReducer.class); 


FileInputFormat.setInputPaths(conf,args[0]) ; 
FileOutputFormat.setOutputPath(conf, new Path(args[1])) ; 


JobClient.runJob(conf); 
} 


3. 编译 上 壕 两 个 文件 。 
4. 将 上 壕 两 个 类 文件 打包 为 ufo . jar 文件 并 提交 作业 至 Hadoop。 


5. 将 输出 文件 拷贝 至 本 地 文件 系统 并 检查 它 。 


$ more locations.txt 
原理 分 析 
上 述 代 码 实 现 了 很 多 功能 ， 让 我 们 一 段 一 段 地 进行 分 析 。 


第 一 个 mapper 是 一 个 简单 的 验证 mapper。 该 类 与 标准 MapReduce API 的 接口 
相同 ，map 返回 了 验证 的 结果 。 我 们 将 验证 方法 分 割 为 单独 的 方法 以 突出 
mapper 的 功能 ， 但 是 这 些 校 验 可 以 很 容易 地 在 map 主 方法 中 实现 。 为 了 简 
我 们 坚持 以 前 的 验证 策略 ， 检 查 字 段 数 并 丢弃 那些 少 于 6 个 字段 的 
ADAE e 


请 注意 ，ChainMapper 类 不 幸 地 成 为 最 后 迁移 到 context 对 象 API 的 组 件 之 
一 ， 截 至 Hadoop 1.0， 只 能 使 用 旧 的 API。ChainMapper 仍 是 一 个 有 效 的 概念 
和 有 用 的 工具 ， 但 直到 Hadoop 2.0， 它 才 会 将 被 迁移 到 
org.apache.hadoop.mapreduce.lib.chain 包 ， 所 以 目前 仍 需 使 用 
其 较 老 的 方法 。 


另 一 个 文件 实现 了 另 一 个 mapper， 并 在 主 方法 中 包含 了 一 个 升级 后 的 驱 
动 。 该 mapper 在 UFO 目 击 事件 报告 的 地 点 字段 寻找 双 字 母 序 列 。 手 工 检查 
数据 发 现 ， 很 明显 大 部 分 地 点 字段 的 值 是 “城市 ， 州 ”的 形式 ， 在 这 里 ， 标 
准 的 双 字 符 缩 写 表 示 UEO 有 目击 事件 发 生 的 州 名 。 


然而 ， 有 些 记录 加 入 了 后 括号 、 句 号 或 其 他 标点 符号 。 男 一 些 记 录 根 本 整 
不 是 这 种 格式 。 对 我 们 而 言 ， 我 们 很 乐意 抛弃 那些 记录 ， 并 专心 处 理 那 些 
我 们 比较 看 重 的 、 以 双 字 符 的 州 名 缩写 结尾 的 记录 。 


map 方 法 使 用 男 一 个 正则 表达 式 从 地 点 字段 中 提取 州 名 缩写 ， 并 输出 其 大 写 
形式 和 计数 结果 。 


本 作业 的 驱动 程序 发 生 的 变化 最 大 。 之 前 的 驱动 配置 中 仪 包含 一 个 map 
类 ， 而 本 作业 的 驱动 配置 要 多 次 调用 ChainMapper 类 。 


在 驱动 中 多 次 调用 ChainMapper 类 的 一 般 模 式 是， 为 每 个 napper 浙 建 一 个 
配置 对 象 ， 然 后 将 mapper 添 加 到 ChainMapper 类 ， 同 时 指定 输入 和 输出 位 
置 ， 并 引用 整个 作业 的 配置 对 象 。 


请 注意 ， 上 述 两 个 napper 的 参数 略 有 不 同 。 它 们 都 输入 Longwritable 类 
型 的 键 及 Text 类 型 的 值 。 区 别 在 于 和 输出 的 数据 类 型 ; 
UFORecordValidationMapper 输出 Longwritable 类 型 的 键 及 Text 
类 型 的 值 ， 而 UFOLocationMapper 则 相反 ， 输 出 Text 类 型 的 键 及 
Longwritable 类 型 的 值 。 


重要 的 是 ， 要 保证 mapper 链 条 末端 的 UFOLocationMapper 的 输入 与 
reduce 类 (LongSumReducer ) 的 输入 类 型 相 匹 配 。 在 使 用 chainMapper 
类 时 ， 只 要 符合 下 列 条 件 ， 链 条 中 的 mapper 可 以 有 不 同 的 输入 和 输出 : 


A 一 个 mapper 外 ， 链 条 中 每 个 map 的 输出 与 下 一 个 mapper 的 输入 相 
匹配 ; 


。 对 最 后 一 个 mapper 而 言 ， 其 输出 与 reducer 输 入 相 匹 瑟 。 
我 们 编译 这 些 类 并 将 其 打包 到 同一 个 jar 文 件 。 这 是 我 们 第 一 次 从 多 个 Java 源 
文件 获得 捆绑 输出 。 正 如 所 料 ， 这 没什么 神奇 的 。jar 文 件 、 路 径 以 及 类 名 
的 常用 规则 在 这 里 同样 适用 。 因 为 在 这 个 例子 中 ， 所 有 类 都 在 同一 个 jar 包 
中 ， 不 必 担 心 驱动 类 文件 的 引入 。 
随后 ， 我 们 运行 MapReduce 作 业 并 检查 输出 ， 结 果 与 预期 有 些 不 同 。 
一 展 身 手 


使 用 Java API 和 前 面 的 ChainMapper 例 子 来 重新 实现 之 前 用 Ruby 编 写 的 


mapper， 该 mapper 输 出 不 同 UFO 形 状 出 现 的 频率 与 其 持续 时 间 。 
1. 缩写 太 多 
前 一 节 作 业 的 输出 结果 如 下 所 示 。 


AB 286 
AD 6 
AE 7 
AI 6 


AM 22 
AN 161 


该 文件 有 186 个 不 同 的 双 字 符 条 目 。 人 简单 地 说 ， 从 地 点 字段 提取 双 字 符 的 方 
法 并 非 完 全 可 行 。 


在 人 工分 析 源 文件 之 后 ， 许 多 数据 问题 浮 出 水 面 。 
。 州 名 的 大 写 缩 写 不 一 致 。 


。 大 量 的 目击 事件 并 非 发 生 在 美国 ， 尽 管 它们 可 能 遵守 类 似 (城市 ， 地 
区 ) 的 格式 ， 但 是 它们 的 缩写 并 不 在 我 们 预计 的 50 个 地 区 缩写 之 内 。 


。 有 些 字段 根本 不 遵守 (城市 ， 地 区 ) 这 样 的 规则 ， 但 仍 会 被 正则 表达 
式 采集 到 。 


我 们 需要 对 结果 进行 过 滤 ， 最 好 是 将 美国 记录 标准 化 为 正确 的 州 名 输出 ， 
并 将 其 余数 据 划分 为 一 个 范围 更 宽泛 的 大 类 。 


为 了 执行 这 个 任务 ， 需 要 在 mapper 中 添加 一 些 内 容 ， 让 它 明 日 什么 是 有 效 
的 美国 州 名 缩写 。 当 然 ， 我 们 可 以 将 其 硬 编码 到 mapper 中 ， 但 这 似乎 不 是 
正确 的 做 法 。 虽 然 现在 我 们 计划 将 所 有 非 美国 的 目击 事件 视 为 一 类 ， 但 我 
们 今后 还 可 能 对 该 类 进行 扩展 ， 比 如 按 国家 进行 划分 。 如 采 将 州 名 缩写 便 
编码 到 mapper， 那 就 需要 每 次 重新 编译 我 们 的 mapper 。 


2. 使 用 分 布 式 缓存 


为 了 使 作业 的 所 有 任务 共享 引用 数据 ，Hadoop 为 我 们 提供 了 一 种 可 供 选择 
的 机 制 一 一 分 布 式 缓存 。 它 可 以 把 map 或 reduce 任 务 要 用 的 通用 只 读 文件 在 
所 有 节点 之 间 共 重 。 这 些 文件 可 以 是 像 本 例 中 的 文本 数据 ， 也 可 以 是 其 他 

jar 文 件 、 二 进 制 数据 或 一 些 归 档 文 件 等 ， 任 何 文件 都 可 以 。 


要 被 共享 的 文件 放置 在 HDFS， 作 业 了 驱动 将 其 加 入 到 DistributedCache。 在 作 
业 执 行 前 ，Hadoop 的 每 个 节点 会 将 文件 复制 到 本 地 文件 系统 ， 这 意味 着 每 
个 任务 对 文件 都 具有 本 地 访问 权限 。 


另 一 种 方法 是 将 需要 的 文件 捆绑 编译 成 作业 jar， 然 后 提交 给 Hadoop。 将 数 
据 打 包 到 jar 文 件 使 数据 很 难 在 作业 间 共 享 ， 而 且 如 果 数 据 发 生变 化 ， 还 需 
要 重新 编译 jar 文 件 。 


4.9 ”实践 环节 : 使 用 Distributed Cache 改 进 地 点 输出 
我 们 现在 使 用 Distributed Cache 在 集群 内 部 共享 美国 州 名 及 其 缩写 列表 : 
1. 在 本 地 文件 系统 创建 名 为 states,txt 的 数据 文件 。 文 件 中 的 每 行内 


容 痢 是 一 个 以 制 表 符 分 隔 的 州 名 缩写 及 全 称 。 读 者 可 以 从 本 书 主页 获 
取 该 文件 。 该 文件 的 开头 部 分 如 下 所 示 。 


AL Alabama 
AK Alaska 


AZ Arizona 
AR Arkansas 
CA California 


2. 将 states .txt 文件 放 到 HDFS 上 。 


$ hadoop fs -put states.txt states.txt 


PARS 、 


3. 将 之 前 的 UFOLocation. java 找 贝 为 UFOLocation2.java 文 件 ， 并 通过 
添加 下 列 “ 引 用 ”声明 修改 该 文件 。 


import java.io.* ; 

import java.net.* ; 

import java.util.* ; 

import org.apache.hadoop.fs.Path; 


import org.apache.hadoop.filecache.DistributedCache ; 


4. 将 下 列 内 容 添加 到 驱动 程序 的 主 方法 中 ， 放 在 设置 作业 名 的 代码 之 


口 


DistributedCache.addCacheFile(new URI ("/user/hadoop/states.txt"), conf) ; 
YI ` Dd 
5. 将 map 类 符 换 为 以 下 内 容 。 


public static class MapClass extends MapReduceBase 
implements Mapper 


private final static Longwritable one = new 
Longwritable(1); 
private static Pattern locationPattern - Pattern.compile( "[a-zA-Z] 
(23[^a-zA-Z]*$") ; 
private Map stateNames ; 


QOverride 


public void configure( JobConf job) 


try 


Path[] cacheFiles = DistributedCache. getLocalCacheFiles(job) ; 
setupStateMap( cacheFiles[0].toString()) ; 
) catch (IOException e) 
{ 
System.err.println("Error reading state file.") ; 
System.exit(1) ; 
H 


j 


private void setupStateMap(String filename) 
throws IOException 
1 
Map states = new HashMap(); 
BufferedReader reader - new BufferedReader( new FileReader(filename)) 
String line - reader.readLine() ; 
while (line !- null) 
1 
String[] split = line.split("Nt") 
states.put(split[0], split[1]) ; 
line - reader.readLine() ; 


j 


stateNames - states ; 


} 


public void map(Longwritable key, Text value, 
OutputCollector output, 
Reporter reporter) throws IOException 


1 
String line - value.toString(); 
String[] fields = line.split("Nt") 
String location - fields[2].trim() ; 
if (location.length() »- 2) 


1 
Matcher matcher - locationPattern.matcher(location) ; 
if (matcher.find() ) 
1 
int start - matcher.start() ; 
String state = location.substring(start, start-42) ; 
output.collect(newText(lookupState(state. toUpperCase())), one); 
H 
} 
} 
private String lookupState( String state) 
1 


String fullName - stateNames.get(state) ; 


return fullName -- null? "Other": fullName ; 


} 


6. 编译 这 些 类 并 将 作业 提交 至 Hadoop。 随 后 获取 结果 文件 。 
原理 分 析 


了 


首先 ， 我 们 创建 了 一 个 本 作业 要 用 到 的 查询 文件 ， 并 将 其 放 在 HDFS 上。 要 
添加 到 Distributed Cache 的 文件 必须 首先 拷贝 到 HDFS 文 件 系 统 。 


在 创建 新 的 作业 文件 之 后 ， 我 们 添加 了 必需 的 类 引用 。 然 后， 修改 驱动 
类 ， 将 我 们 想 在 每 个 廊 点 上 访问 的 文件 添加 到 Distributed Cache。 文 件 名 可 
以 用 多 种 方式 指定 ， 但 最 简单 的 方法 是 使 用 该 文件 在 HDFS 上 的 绝对 路 径 。 


我 们 也 对 mapper 类 进行 了 大 量 修 改 。 其 中 ， 新 增 了 一 个 重 写 的 configure 
方法 ， 该 方法 使 用 map 方 法 将 州 名 缩写 与 全 称 关 联 起 来 。 


configure 方法 在 任务 局 动 时 被 调用 ， 其 默认 实现 不 执行 任何 操作 。 在 我 
们 重 写 的 版 本 中 ， 该 方法 获取 已 添加 到 Distributed Cache 中 的 文件 阵列 。 
为 我 们 知道 缓存 中 只 有 一 个 文件 ， 所 以 就 直接 取得 数组 中 第 一 项 ， 并 将 其 
futility 方法 ， 该 方法 解析 文件 并 使 用 文件 内 容 填 充 州 名 缩写 查询 
map ° 请 注意 ， 一 旦 获得 了 文件 引用 ， 我 们 就 可 以 使 用 标准 Java IO 类 来 访 
问 该 文件 了 ， 毕 竟 它 只 是 一 个 本 地 文件 系统 的 文件 。 


我 们 添加 了 另 一 种 方法 来 执行 查询 ， 该 方法 的 参数 是 从 地 点 字段 获取 的 字 
符 串 ， 如 果 有 匹配 结果 ， 它 返回 州 名 的 全 称 ， 否 则 返回 字符 串 0ther 。 该 
方法 在 0OutputCcollector 类 对 map 方 法 的 结果 进行 写 操作 之 前 调用 。 


本 作业 的 结果 大 致 如 下 。 


这 段 代 码 运 行 得 很 好 ， 但 我 们 在 此 期 间 却 丢失 了 一 些 信息 。 在 验证 mapper 
中 ， 我 们 丢掉 了 少 于 6 个 字段 的 所 有 记录 。 虽 然 我 们 不 在 意 丢 弃 个 别 记 录 ， 

但 我 们 可 能 会 天 心 被 丢弃 的 记录 数量 是 不 是 很 多 。 目 前 ， 确 定 被 丢弃 记录 

数量 的 唯一 方法 是 ， 票 计 包 含有 效 地 点 的 记录 数 并 从 文件 记录 总 数 中 减 去 

该 值 。 我 们 也 可 以 党 试 将 这 些 数据 传 入 作业 的 其 余部 分 ， 以 一 个 特殊 的 
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4.10 计数器、 状态 和 其 他 输出 


每 个 MapReduce 作 业 结 尾 都 有 一 些 与 计数 絮 相 天 的 输出 ， 比 如 下 面 这 


12/02/12 :28: mapred.JobClient: Counters: 22 

12/02/12 :28: mapred.JobClient: Job Counters 

12/02/12 :28: mapred.JobClient: Launched reduce tasks-1 
12/02/12 :28: mapred.JobClient: Launched map tasks-18 


12/02/12 :28: mapred.JobClient: Data-local map tasks-18 
12/02/12 :28: mapred.JobClient: SkippingTaskCounters 
12/02/12 :28: mapred.JobClient: MapProcessedRecords-61393 


At TELS E E AUR. MUSUE ESSERE BAR. PETAT TR 
MapReduce web UI 中 得 到 统计 结果 。 


4.11 ”实践 环节 : 创建 计数 器 、 任 务 状态 和 写 入 日 志 


我 们 将 修改 UFORecordValidationMapper ， 用 它 统计 被 略 去 的 记录 
数 ， 并 标记 一 些 记录 作业 信息 的 其 他 措施 。 


1. 创建 UFOCountingRecordValidationMapper .java 文件 ， 输 入 
以 下 内 容 。 


import java.io.IOException; 


import org.apache.hadoop.io.* ; 
import org.apache.hadoop.mapred.* ; 
import org.apache.hadoop.mapred.lib.* ; 


public class UFOCountingRecordValidationMapper extends 
MapReduceBase 
implements Mapper 


public enum LineCounters 


BAD. LINES, 
TOO MANY TABS, 
TOO FEW TABS 
3 
public void map(Longwritable key, Text value, 
OutputCollector output, 
Reporter reporter) throws IOException 


String line - value.toString(); 


if (validate(line, reporter)) 


Output.collect(key, value); 


private boolean validate(String str, Reporter reporter) 
String[] parts - str.split("Nt") ; 
if (parts.length !- 6) 


if (parts.length 


2. 复制 UFOLocation2.java ， 男 存 为 UFOLocation3.java ， 使 用 
下 列 新 mapper 代 替 UFORecordValidationMapper ° 


JobConf mapconf1 = new JobConf(false) ; 

ChainMapper.addMapper( conf, 
UFOCountingRecordValidationMapper.class, 

Longwritable.class, Text.class, LongWritable.class, 
Text.class, 

true, mapconf1i) ; 


3. 编译 文件 ， 打 包 为 jar 并 提交 作业 至 Hadoop。 


12/02/12 06:28:51 INFO mapred.JobClient: Counters: 22 
12/02/12 06:28:51 INFO 
mapred.JobClient:UFOCountingRecordValidationMapper$LineCounters 


12/02/12 06:28:51 INFO mapred.JobClient: TOO MANY TABS-324 
12/02/12 06:28:51 INFO mapred.JobClient: BAD LINES-326 
12/02/12 06:28:51 INFO mapred.JobClient: TOO FEW TABS-2 


12/02/12 06:28:51 INFO mapred.JobClient: Job Counters 


4. 使 用 浏览 器 打开 MapReduce web UI. (GRUTE UL F, MapReduce web UI 
是 在 JobTracker 主 机 的 50 030 端 口 ) 。 选 择 Completed Jobs 列表 底部 的 


作业 ， 会 看 到 类 似 下 面 的 屏幕 截图 。 


Hadoop job_201202111619 0 


Hadoop job 201202111619 0023 on head 


User: hàdoop 
Job Name: LFOLocouon 


Job File: bdrs head $000varnadoop/mapred/systemtob 201202111619 0023^9b xmi 
Job Setup: 506555 


Status: Succeeded 

Started at: Sun Feb 12 1500 35 PST 2012 
Finished at: Sun Fed 12 150155 PST 2012 
Finished in; !mins, 1956c 

Job Cleanup: Successhi 


Kind 9& Complete Num Tasks Pending Running Complete Killed | F?lled/Killed 


Task Attempts 
map 100 0096 18 0 0 14 0 012 
reduce 100 006 ! 0 g 1 0 0/0 
Counter Map Reduce Total | 
TOO. MANY. TABS 324 0 324 | 
UFOCountngRecordVabdatonMapperf$LineCourgers | TOO FEW TABS 2 0 2 
BAD LINES 326 0 326 
Launched reduce tasks 0 0 1| 
| zl 
nis "- EEEE RIESS — WEDEREC 
务 的 链接 ， 你 应 当 看 到 一 个 概 六 如 下 图 所 示 。 
所 击 map 任 | 术 页 面 ， 如 下 


ead - Wiesdows Internet Expl 


fe 19.0.0.160 习 a JEMS p 


<p- 8B eu m ERO Su DISCE "m 


dadoop map task list for job 201202111619 0023 on head 
rompleted Tasks 
5 " Ch Start Fish 4 
Task Complete | Stétus Time Time Errors 
12-Feb. 
task 201202111619 0023 m 000000 | 100.00% Got 10 bad lines Lc 
À 15:0040 | 1500:49 
losec 
Cre 12re». | 12Feb 
100.00% | Got 10 bad ines 2002 |. 
150040 | 190049 
z (9sec) 
x | 
10000% _ |Got10badinès 2012 15 91 ^h 
15:00 41 (4450) 
12. 12-Feb- 
n 12.Fety | 2012 
bask 201202111619 0022 m 000003 10000% | hdfshhead9000usermhadoopkio tsv 12592912«4194304 | 2012 150126 
n 50126 
150041 (4458c) 
[LN z 
uj c————Á ———————————— T Á— — có: f 2 
pes TITT O Paopao e 了 


6 .选择 一 个 带 有 自 定义 状态 消息 的 任务 ， 点 击 其 计数 器 链接 ， 结 果 应 当 


Counters for task 201202111619 0023 m 000000 
UFOCountingRecord V alidationM apperSLiseCounters 
TOO MANY TABS 19 
BAD LINES 19 
SkiggingT ask Counters 
MagProcessedRecorár 4411 
FileSystemCeunters 
HDFS BYTES READ 4,198,400 
FILE BYTES WEJTTEN 1,065 
Map Reduce Framework. 
Combe output records 2 
Mag ngia records 4411 
Spaed Records s2 
Map output bytes 76,339 
Map se bytes 4,195,420 
Combne sga records 4,385 
Map output records 4,385 
Go back so tte 19b 
ro back. to ak zi 


AS rire bat twm = 


7 返回 任务 列表 并 点 击 任务 ID 获得 任务 ee 


GO 19.0.0.100 Ja xi A- 
Pe (X dem Pates go de 


04 — sw WE Ob ne c d Ae 


Job job 201202111619 0023 


All Task Attempts 


Task Attempts Machine Status Progress Tis Time Errors Logs Counters | Acti 
Last 
afak kB 
attempt, 201202111619 0023 m 000000 0 tau. Last |12 
* tackioode AKB 
eJ 


Input Split Locations 


Idetaut.rackinode3 
IGefaut-recinode1 


Idetauk.rackinodes 


8. 可 在 Task Logs 列 选择 想 有 要 显示 的 数据 量 。 点 击 All 链 授 ， 结 果 如 下 图 
三 Testegn'aempt_ 201202111639. 0023 m. 009000. 0' - Windows internet Exphoeer PHJ E 
Ge o oon: CAGE ct 
De fd Yew Pautes ok teb 

 pecum—— z|Dee- EPOR O*-:cLJ 
Iano {E| moneo x| d e Tat 
Task Logs: 'attempt 201202111619 0023 m 000000 0"' 
stdout logs 
stderr logs 
syslog logs 
全 


所 示 H— rta SEISXUS 
9. 现在 ， 登 录 到 一 个 任务 节点 并 浏览 hadoop/LogsVuser1ogs 路 径 下 
的 文件 。 每 个 任务 都 有 一 个 专用 目录 ， 该 目录 下 有 若干 文件 。 我 们 要 


查看 的 是 stderr 。 


原理 分 析 


为 了 添加 新 计数 器 ， 我 们 需要 做 的 第 一 件 事 是 创建 一 个 承载 它们 的 标准 Java 
枚 举 。 本 例 中 ， 我 们 创建 了 一 个 LineCounters ，Hadoop 将 其 视 为 计数 器 

组 。 在 LineCounters 中 ， 有 3 个 计数 器 分 别 对 不 符合 数据 格式 的 总 行 数 ， 以 
及 更 细 力 度 地 对 少 于 或 多 于 6 个 字段 的 行 的 数量 进行 统计 。 这 束 是 创建 新 计 
数 器 集合 所 需 做 的 所 有 事情 一 一 定义 枚 举 类 型 。 计 数 开始 后 ，Hadoop 框 染 
会 自动 维护 计数 器 的 值 。 


为 了 将 中 标 数 据 加 入 到 计数 器 ， 我 们 通过 Reporter 对 象 增加 计数 禹 的 

值 。 本 例 中 ， 每 次 我 们 直到 错误 数据 行 ， 少 于 6 个 字段 的 行 或 者 多 于 6 个 字 
段 的 行 时 ， 分 别 将 相应 计数 絮 的 值 加 1 。 

我 们 也 获取 BAD_LINE 计数 器 的 值 ， 假 如 它 是 10 的 倍数 ， 执 行 下 列 任 务 : 


。 设置 任务 状态 以 反映 实际 情况 ; 


。 使 用 标准 的 Java_ System.err.println 机 制 向 stderr 写 入 类 似 


A 
信息 。 


随后 ， 我 们 转向 MapReduce UI， 验 证 是 否 可 在 作业 概览 中 看 到 计数 器 总 
数 ， 是 否 可 在 任务 列表 中 看 到 市 有 目 定义 状态 消 妃 的 所 有 任务 。 


之 后 ， 我 们 浏览 网 页 用 户 接口 ， 查 看 个 别 作业 的 计数 夯 。 对 于 我 们 在 详细 
页 面 看 到 的 任务 ， 可 以 点 击 查看 任务 日 志文 件 。 


查看 其 中 一 个 节点 ， 我 们 发 现 ，Hadoop 为 每 个 任务 留存 了 日 志 ， 存 放 在 文 
件 系 统 的 {HADOOP_HOME}/10gs/userlogs 目录 下 。 在 每 个 任务 的 子 目 
录 下 ， 有 标准 流 和 普通 任务 日 志 的 文件 。 如 你 所 见 ， 人 忙碌 节点 留 下 了 大 量 
的 任务 日 志 目 录 ， 从 中 找 出 我 们 感 兴趣 的 任务 目录 不 是 一 件 容 易 的 事 。 事 
实证 明 ， 使 用 网 页 接口 查阅 此 类 数据 更 为 高 效 。 


技巧 : 假如 你 用 的 是 Hadoop context 对 象 API， 就 要 用 
Context.getCounter().increment() 方法 访问 计数 器 。 


信息 太 多 


虽然 不 必 再 考虑 如 何 获取 作业 状态 和 其 他 信息 ， 但 似乎 突然 间 出 现 了 太 多 
令 人 困惑 的 信息 可 供 选 择 。 问 题 的 实质 是 ， 在 全 分 布 式 模式 下 ， 数 据 散 布 
在 各 个 下 点 ， 因 此 我 们 无 法 采用 传统 的 单 击 调试 方法 调试 MapReduce 作 业 。 
Ruby Streaming 任 务 可 轻易 在 命令 行 下 运行 ， 命 令 行 的 输出 为 调试 问题 提供 
了 帮助 ， 而 使 用 Java 语 言 实现 的 任务 却 无 法 模拟 该 行为 。 因此， 开发 者 需要 
寺 别 考虑 ， 调 试 程序 可 能 会 用 到 哪些 作业 运行 时 信息 。 这 应 当 包 括 一 般 性 
的 作业 运行 状态 ， 也 应 当 包 括 可 以 为 进 步调 查 问 题 提 供 帮 助 的 其 他 信 


计数 器 、 任 务 状态 消息 以 及 老式 Java 日 志 可 以 协同 工作 。 假 如 你 对 某 种 状况 
比较 关注 ， 将 其 设 为 计数 器， 每 次 发 生 这 种 状况 时 计数 右 都 会 记录 。 同 时 
在 发 生 这 种 状况 时 ， 设 置 任务 状态 消息 。 如 有 果 任 务 运行 过 程 中 产生 了 一 些 
特殊 数据 ， 将 其 写 入 到 stderr 。 由 于 很 容易 看 到 计数 占 的 值 ， 你 可 以 在 作 
业 完 成 之 后 迅速 得 知 你 所 关注 的 情况 是 否 发 生 过 。 而 且 ， 在 网 页 用 户 界 面 
中 ， 一 上 腿 束 能 看 出 你 所 关注 的 情况 发 生 在 哪个 任务 运行 过 程 中 。 并 且 ， 你 
可 以 在 网 页 用 户 界 面 中 点 击 查 看 该 任务 的 详细 日 志 。 


其 实 ， 你 不 需要 等 到 整个 作业 完成 后 才 开 始 调查 。 随 着 作业 的 执行 ， 计 数 
絮 和 任务 状态 信息 会 在 网 页 用 户 界 面 实 时 更 新 ， 所 以 只 要 计数 器 或 任务 状 


态 信息 提醒 你 出 现 了 关注 的 情况 ， 你 吏 可 以 着 手 进 行 调查 。 尤 其 是 一 些 错 
误 可 能 会 导致 已 运行 很 长 时 间 的 作业 中 止 时 ， 这 个 技巧 特别 有 用 。 


4.42 “小结 


本 章 介 绍 了 如 何 开 发 MapReduce 作 业 ， 重 点 讲述 了 可 能 经 常会 页 到 的 一 些 问 
题 及 其 解决 方法 。 特 别 是 ， 我 们 学 习 了 如 何 使 用 Hadoop Streaming 脚 本 语言 
编写 map 和 reduce 任 务 ， 以 及 如 何 有 效 使 用 Streaming 技 术 进 行 早期 的 作业 原 
型 设计 和 最 初 的 数据 分 析 。 

我 们 同时 也 了 解 到 ， 使 用 脚本 语言 编写 任务 有 利于 在 命令 行 下 直接 测试 和 
调试 代码 。 我 们 还 学 习 了 Java API， 使 用 ChainMapper 类 可 以 把 复杂 的 
map 任 务 分 解 成 一 系列 较 小 且 更 有 针对 性 的 map 任 务 。 

紧 接 着 ， 我 们 学 习 了 Distributed Cache 如 何在 所 有 节点 间 共 享 数据 。 它 将 数 
据 文 件 从 HDFS 找 贝 到 每 个 廊 点 的 本 地 文件 系统 ， 使 我 们 可 以 在 本 地 访问 这 
些 数 据 。 我 们 还 学 到 ， 通 过 定义 Java 枚 举 可 以 为 计数 句 组 添加 计数 器 并 利用 
Hadoop 框 架 上 自动 维护 计数 器 值 。 此 外 ， 我 们 也 了 解 了 如 何 组 合 运 用 计数 

人 絮 、 任 务 状态 信息 和 debug 日 志 进 行 高 效 的 作业 分 析 。 

在 开发 MapReduce 作 业 的 过 程 中 ， 你 会 经 常 而 到 大 部 分 前 述 技 术 和 方法 。 下 
我 们 将 探索 一 系列 更 高 级 的 且 不 会 经 名 人 肆 到 的 技术 ， 但 它们 却 十 分 


第 5 章 ”高 级 MapReduce 技 术 


既然 我 们 已 经 学 习 了 一 些 MapReduce 基 础 知识 及 其 使 用 方法 ， 下 面 将 研究 更 
多 MapReduce 相 关 技 术 和 概念 。 


本 章 包括 以 下 内 容 : 
。 对 数据 执行 联结 操作 ; 
。 用 MapReduce 实 现 图 算法 ; 
。 如 何 用 与 语言 无 关 的 方式 表示 复杂 数据 类 型 。 


同时 ， 在 研究 学 习 案例 的 过 程 中 ， 我 们 将 强调 一 些 实用 的 技巧 、 穿 门 和 某 
些 领域 的 最 佳 实践 等 内 容 。 


5.1 初级 、 高 级 还 是 中 级 


本 章 标题 中 出 现 的 “高 级 ”一 词 有 点 危险 ， 因 为 复杂 性 是 一 个 主观 概念 。 因 
此 ， 我 们 需要 界定 清楚 “高 级 ”一 词 涵盖 的 内 容 。 我 们 从 不 认为 本 章 要 讲 的 
内 容 是 需要 伦 费 多 年 时 间 才 能 领悟 到 的 大 吞 慧 。 反 之 ， 我 们 也 不 认为 本 草 
讨论 的 一 些 技术 和 问题 适合 Hadoop 新 手 。 


因此 ， 本 章 使 用 "高 级 ”一 词 指 代 最 初 儿 天 或 几 周 不 曾 学 到 或 遇 到 的 技术 ， 
或 者 即便 遇 到 过 却 没有 完全 理解 的 内 容 。 这 些 撤 术 不 仅 提 供 了 特定 问题 的 
专门 解决 方案 ， 也 强调 了 如 何 使 用 标准 Hadoop 与 相关 API 解 决 明 显 不 适用 于 
MapReduce 处 理 模型 的 问题 。 之 后 ， 我 们 也 会 提 到 一 些 替 代 方 法 ， 虽 然 本 章 
` 会 具体 学 习 如 何 实现 这 些 方法 ， 但 它们 可 能 有 助 于 读者 更 深入 地 研究 
MapReduce ° 


n 的 第 一 个 案例 就 属于 后 一 种 情况 ， 在 MapReduce 作 业 中 执行 各 种 


5.2 多 数据 源 联结 


没有 问题 会 使 用 一 个 单独 的 数据 集 。 在 许多 情况 下 ， 有 一 些 简单 的 方法 可 
以 避免 在 MapReduce 框 以 中 处 理 多 个 单独 却 又 相关 的 数据 集 。 


当然 ， 本 章 提 到 的 联结 类 似 于 关系 数据 库 中 的 概念 。 在 关系 数据 库 中 ， 将 
数据 分 成 多 个 表 ， 然 后 使 用 SQL 联 结语 句 从 多 个 数据 源 获取 数据 是 很 自然 
的 事 。 一 个 典型 例子 是 ， 主 表 仪 包含 特定 资料 的 唯一 JD， 可 以 使 用 与 其 他 
表 的 联结 操作 获取 该 ID 指 代 的 数据 。 


5.2.1 不 适合 执行 联结 操作 的 情况 
在 MapReduce 中 是 可 以 实现 联结 操作 的 。 实 际 上 ， 稍 后 我 们 会 看 人 到， 问题 并 


不 在 于 是 否 具备 实现 该 功能 的 能 力 ， 而 在 于 从 众多 潜在 策略 中 选择 哪 一 
个 。 


然而 ，MapReduce 联 结 通常 较 难 编写 ， 而 且 戏 率 低下 。 无 论 你 用 了 多 长 时 间 
Hadoop， 都 会 遇 到 需要 进行 联结 操作 的 场景 。 不 过 ， 如 果 需 要 在 
MapReduce 作 业 中 频繁 执行 联结 ， 你 可 能 束 要 问 一 下 自己 ,数据 的 结构 性 是 


不 是 很 强 以 及 是 不 是 比 预想 的 存在 更 多 内 在 关联 。 如果 是 这 样 的 话 ， 可 能 
Is SE SIEH Apache Hive (第 8 章 的 主要 话题 ) 或 Apache Pig (在 第 8 
章 会 简要 提 到 ) 。 二 者 都 提供 了 基于 Hadoop 的 附加 层 ， 人 允许 使 用 高 级 语言 
进行 数据 处 理 操作 ， 比 如 Hive 使 用 的 就 是 一 种 SQL 语 言 的 变种 。 


5.2.2 ”map 端 联结 与 reduce 端 联结 的 对 比 


在 Hadoop 中 ， 有 两 种 基本 方法 可 以 实现 数据 联结 。 我 们 根据 数据 联结 发 生 
在 作业 执行 的 哪个 阶段 ， 将 它们 分 别 命名 为 map 端 联结 和 reduce 庙 联结 "无 
论 哪 种 情况 ， 都 需要 汇集 多 个 数据 流 并 通过 一 些 逻 辑 执 行 数据 联结 。 这 两 
ur M 于 ， 多 个 数据 流 整合 是 发 生 在 ape KAA = reducer 
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顾名思义 ，map 端 联结 把 数据 流 读 入 mapper， 并 利用 编码 在 mapper 范 数 内 部 
的 逻辑 执行 联结 操作 。map 端 联结 的 巨大 优势 在 于 ， 通 过 在 mapper 中 执行 全 
联结 (更 关键 的 是 减少 数据 量 ) ， 传 输 给 reduce 阶 段 的 数据 量 大 幅 下 降 。 
map 端 联结 也 有 缺点 : 要 么 得 确保 其 中 一 个 数据 源 的 数据 规模 很 小 ， 要 
要 按照 特定 规则 定义 作业 的 输入 。 通 常 ， 唯 一 的 方法 是 使 用 另 一 个 
而 该 作业 的 唯一 目的 就 是 为 map 端 联结 


与 之 相反 ，reduce 端 联结 不 在 map 阶 段 对 多 数据 流 执行 联结 操作 ， 而 是 把 联 
结 操作 放 在 reduce 阶 段 进 行 。 这 种 方法 的 潜在 缺陷 是 ， 所 有 数据 源 的 全 部 数 
据 都 经 过 shuffle 阶 段 传人 reducer， 而 其 中 大 部 分 数据 可 能 被 联结 操作 丢弃 。 
对 大 数据 集 而 言 ， 这 将 是 一 个 明显 开销 。 


reduce 闹 联结 的 主要 优点 十 简单 。 开 发 者 基本 上 可 以 决定 作业 结构 ， 而 且 通 
常 为 相关 数据 集 定义 reduce 端 联结 的 方法 是 很 简单 的 。 下 面 看 一 个 例子 。 


5.2.3 ”匹配 账户 与 销售 信息 

很 多 公司 的 销售 记录 与 客户 信息 都 是 分 开 管理 的 。 当 然 ， 二 者 之 间 存 在 茶 
aic 通 单 销售 记录 包含 客户 账户 的 唯一 ID， 而 客户 账户 则 与 某 些 销售 
Vy Y [e] 


在 Hadoop 中 ， 这 些 内 容 以 两 类 数据 文件 表示 : 一 类 文件 包含 用 户 ID 记录 和 
销售 信息 ， 男 一 类 文件 包含 每 个 客户 账户 的 全 部 数据 。 


最 肖 见 的 任务 束 是 使 用 这 些 数据 源 生 成 报告 。 举 个 例子 ， 我 们 想 了 解 销 售 
总 额 和 针对 每 个 客户 的 销售 额 ， 但 我 们 更 愿意 看 到 销售 额 与 客户 姓名 的 对 
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应 关系 ， 而 非 匿名 的 ID 号 。 这 一 点 非常 重要 ， 当 客户 服务 代表 想 致电 最 活 
RDE REDNER ERRE) I, MERKERS, 
“是 数字 。 


5.3 ”实践 环节 : 使 用 MultipleInputs 实 现 reduce 端 联 
结 
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E NIUU NU 提 到 的 客户 -销售 额 报告 。 执 行 以 
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1. 把 下 列 以 tab 为 分 隅 符 的 内 容 保存 为 sales .txt 文件 。 


00135.992012-03-15 
00212.492004-07-02 
00413.422005-12-20 
003499.992010-12-20 
00178.952012-04-02 
00221.992006-11-30 
00293.452008-09-10 
0019.992012-05-17 


2. 把 下 列 以 tab 为 分 隅 符 的 内 容 保存 为 accounts .txt » 


001John AllenStandard2012-03-15 
002Abigail SmithPremium2004-07-13 
003April StevensStandard2010-12-20 
004Nasser HafezPremium2001-04-23 


3. 把 上 述 两 个 数据 文件 拷贝 至 HDFS 。 


$ hadoop fs -mkdir Sales 

$ hadoop fs -put sales.txt sales/sales.txt 
$ hadoop fs -mkdir accounts 

$ hadoop fs -put accounts/accounts.txt 


4. 把 以 下 代码 保存 为 ReduceJoin.java 文件 。 


import java.io.* ; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.*; 

import org.apache.hadoop.mapreduce.lib.input.*; 
import org.apache.hadoop.mapreduce.lib.input.*; 


public class ReduceJoin 


{ 


public static class SalesRecordMapper 


extends Mapper 


{ 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException 


1 
String record - value.toString() ; 
String[] parts - record.split("Nt") ; 


context.write(new Text(parts[0]), new 
Text("salesNt"-«parts[1])) ; 


} 
} 


public static class AccountRecordMapper 
extends Mapper 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException 


{ 


String record = value.toString() ; 
String[] parts - record.split("Nt") ; 


context.write(new Text(parts[0]), new 
Text("accountsNt"-*parts[1])) ; 


} 
} 
public static class ReduceJoinReducer 
extends Reducer 


{ 
public void reduce(Text key, Iterable values,Context context) 
throws IOException, InterruptedException 
1 
String name = "" 


double total - 0.0 ; 
int count = 0 ; 
for(Text t: values) 
t String parts[] = t.toString().split("Nt") ; 
if (parts[0].equals("sales")) 


count-t- ; 
total«- Float.parseFloat(parts[1]) ; 


else if (parts[0].equals("accounts")) 


t 
} 


name = parts[1] ; 


j 


String str = String.format("%d\t%f", count, total) ; 
context.write(new Text(name), new Text(str)) ; 
} 
} 
public static void main(String[] args) throws Exception 
Configuration conf = new Configuration(); 
Job job = new Job(conf, "Reduce?5 join"); 
job.setJarByClass(ReduceJoin.class); 
job.setReducerClass(ReduceJoinReducer.class); 
job.setOutputKeyClass(Text.class); 


job.setOutputValueClass(Text.class); 
MultipleInputs.addInputPath(job, new Path(args[0]), 


TextInputFormat.class, SalesRecordMapper.class) ; 
MultiplelInputs.addInputPath(job, new Path(args[1]), 
TextInputFormat.class, AccountRecordMapper.class) ; 
Path outputPath - new Path(args[2]); 
FileOutputFormat.setOutputPath(job, outputPath); 
outputPath.getFileSystem(conf).delete(outputPath); 


System.exit(job.waitForCompletion(true) ? O : 1); 


5. 编译 ReduceJoin,java 文件 并 把 它 增加 到 join.jar 文件 中 。 


$ javac ReduceJoin.java 
$ jar -cvf join.jar *.class 


6. 通过 执行 下 列 命令 行 运行 作业 。 


$ hadoop jar join.jarReduceJoin sales accounts outputs 


7. 检查 结果 文件 。 


$ hadoop fs -cat /user/garry/outputs/part-r-00000 
John Allen 3 124.929998 


Abigail Smith 3 127.929996 
April Stevens 1 499.989990 
Nasser Hafez 1 13.420000 


原理 分 析 


首先 ， 我 们 创建 了 本 例 用 到 的 数据 文件 。 之 所 以 创建 了 两 个 小 数据 
因为 这 样 更 易于 跟踪 输出 结果 。 我 们 定义 的 第 一 个 数据 集 是 账户 详情 
由 4 个 字段 组 成 。 

。 账户 ID 

客户 姓名 

账户 类 型 

开户 日 期 
接着 ， 我 们 创建 了 销售 记录 数据 集 ， 它 由 如 下 3 个 字段 组 成 。 

。 购买 者 账户 ID 


。 销售 额 


A 


e 售 出 时 间 


当然 ， 实 际 的 账户 信息 和 销售 记录 的 字段 要 比 这 里 提 到 的 多 很 多 。 创 建 了 
这 些 文件 后 ， 我 们 将 其 放 到 HDFS 。 


然后 ， 我 们 创建 了 ReduceJoin, java 文件 ， 它 看 起 来 很 像 我 们 之 前 用 过 
的 MapReduce 作 业 。 这 个 ReduceJoin 作 业 的 某 些 内 容 使 它 变 得 与 众 不 同 ， 并 
实现 了 一 个 联结 操作 。 


首先 ，ReduceJoin 类 定义 了 两 个 mapper。 我 们 之 前 兽 讲 过 ，MapReduce 作 业 
可 以 包含 多 个 链 式 执行 的 mapper。 但 本 例 中 ， 我 们 希望 为 每 个 输入 数据 源 
都 实现 不 同 的 mapper。 于是， 我 们 分 别 在 SalesRecorkMapper 和 
AccountRecordMapper 类 中 定义 了 销售 数据 和 账户 数据 。 我 们 用 到 了 
org.apache.hadoop.mapreduce.1ib.io 包 里 的 MultipleInputs 
类 ， 如 下 所 示 。 


MultipleInputs.addInputPath(job, new Path(args[0]), 
TextInputFormat.class, SalesRecordMapper.class) ; 
MultipleInputs.addInputPath(job, new Path(args[1]), 


TextInputFormat.class, AccountRecordMapper.class) ; 


如 你 所 见 ， 之 前 的 例子 中 只 有 一 个 输入 数据 源 ， 而 本 例 则 与 之 不 同 ， 
MultipleInputs 类 人 允许 我 们 有 多 个 数据 产 ， 并 为 每 个 数据 源 指 定 独立 的 
输入 格式 和 mapper 。 


mapper 的 实现 相当 简单 ，SalesRecordMapper 类 的 输出 格式 为 
«account number»,«sales value», ， 而 AccountRecordMapper 
类 的 输出 格式 为 <account number»,«client name>。 因 此 ， 我 们 把 
排序 后 的 各 次 销售 额 和 客户 姓名 传 入 reducer， 在 reducer 中 执行 数据 联结 。 


请 注意 ， 实 际 上 两 个 mapper 都 输出 了 多 余数 据 。SalesRecordMapper 类 
在 输出 销售 额 时 以 sales 为 前 级 ， 而 AccountRecordMapper 类 以 
account 为 前 组 。 


如 果 我 们 看 一 下 reducer， 就 会 明白 这 样 做 的 原因 。reducer 会 获取 给 定 键 的 
每 条 记录 ， 但 如 果 不 使 用 这 些 明确 的 标签 ， 我 们 就 不 知道 给 定 值 是 sales 
BEN 输出 还 是 account mapper 的 输出 ， 因 此 也 殊不知 道 该 怎样 处 理 这 些 


因此 ，ReduceJoinReducer 类 根据 Iterator 对 象 中 的 值 来 和 目 哪个 
mapper， 决 定 对 其 采取 相应 的 处 理 措施 。AccountRecordMapper 类 的 输 
出 (应 该 有 且 仅 有 一 个 ) 被 用 于 生成 作业 最 终 输 出 结果 中 的 客户 姓名 。 针 
对 每 位 客户 的 销售 记录 (很 可 能 是 多 个 的 ， 因 为 大 部 分 客户 会 买 多 样 商 

品 ) 被 用 于 计算 订单 总 数 和 总 消费 额 。 因 此 ，reducer 输 出 数据 的 键 是 账户 
持 有 人 姓名 ， 值 是 包含 订单 总 数 和 总 消费 额 的 字符 串 。 


我 们 编译 并 执行 ReduceJoin 类 。 请 注意 ， 我 们 输入 了 三 个 参数 ， 其 中 两 
个 参数 表示 输入 路 径 ， 男 一 个 参数 表示 输出 路 径 。 根 据 MultipleInputs 
类 的 不 同 配 置 方 式 ， 我 们 必须 保证 以 正确 的 顺序 输入 三 个 参数 。 

MapReduce 作业 中 不 存在 判定 哪 种 类 型 的 文件 在 哪个 目录 下 的 动态 机 制 。 


执行 完毕 后 ， 我 们 检查 输出 文件 并 确认 输出 文件 包含 了 客户 姓名 及 其 总 消 


费 额 。 


DataJoinMapper 和 TaggedMapperOutput 


还 有 一 种 实现 reduce 端 联结 的 方法 ， 这 种 方法 更 为 复杂 ， 而 且 是 面 癌 对 象 
的 。DataJoinMapperBase 和 TaggedMapoutput 类 在 
org.apache.hadoop.contrib.join 包 里 ， 它 们 封装 了 获取 map 输 出 
标签 并 将 它们 传 给 reducer 的 方法 。 也 就 是 说 ， 有 了 这 种 方法 ， 我 们 不 必 青 
像 刚 才 那 样 显 式 定义 标签 字符 串 ， 然 后 小 心 解 析 reducer 收 到 的 数据 ， 才 能 
识别 数据 是 哪个 mapper 输 出 的 。 _Hadoop 提 供 的 DataJoinMapperBase 和 
TaggedMapOutput 类 已 经 封装 了 实现 该 功能 的 函数 。 


尤其 是 处 理 数值 型 或 非 文 本 型 数据 时 ， 这 个 功能 特别 重要 。 因 为 如 果 像 之 
前 例子 那样 创建 明确 的 标签 的 话 ， 我 们 必须 将 整 型 数据 转换 成 字符 串 ， 然 
后 才能 添加 所 要 求 的 标签 前 缀 。 J 使 用 标准 局 式 内 数值 类 型 并 使 用 其 他 大 
来 实现 标签 的 方法 相 比 ， 上 述 方 法 的 效率 要 低 得 多 


a 支持 复杂 的 标签 生成 以 及 标签 分 组 ， 我 们 之 前 没有 实现 这 些 功 
。 要 使 用 这 些 功能 ， 还 需要 完成 一 些 其 他 工作 ， 包 括 重 写 某 些 方法 以 及 
使 用 另外 的 mp 基 类 。 对 于 像 上 例 这 么 简单 的 联结 来 讲 ， 使 用 Hadoop 框 架 
提供 的 标签 处 理 机 制 有 点 大 材 小 用 ， 但 如 果 要 实现 非常 复杂 的 标签 处 理 代 
码 ， 值 得 试 试 它 。 


5.3.1 ”实现 map 端 联结 


要 想 在 茶 个 阶 段 实 现 数 据 联结 ， 必 须 能 够 在 相应 的 时 间 访 问 每 个 数据 集 的 
适用 记录 。 这 就 是 reduce 端 联结 易于 实现 的 原因 。 尺 管 reduce 端 联结 会 消耗 


额外 的 网 络 流量 ， 但 显然 ，reducer 掌 握 所 有 与 联结 键 相关 的 记录 。 


如 采 我 们 想 在 mapper 中 执行 联结 ， 上 述 条 件 并 不 容易 满足 。 我 们 不 能 保证 
输入 数据 的 结构 化 程度 足够 好 ， 可 以 同时 读 出 关联 记录 。 这 里 我 们 大 致 有 
PUT ERM Ae A PER AE HU EEZSUUS f FC n] Fd-T map? EA 
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1. 使 用 Distributed Cache 


实现 第 一 种 方法 的 最 简单 方式 就 是 ， 只 使 用 一 个 数据 集 并 把 它 放 入 上 一 章 
讲 到 的 Distributed Cache。 该 方法 可 用 于 多 个 数据 源 ， 但 简单 起 见 ， 我 们 这 
里 只 讨论 两 个 数据 源 的 情况 。 


如 果 我 们 有 一 个 较 大 数据 集 和 一 个 较 小 数据 集 ， 例 如 之 前 的 销售 记录 和 账 
户 信 息 ， 一 种 做 法 是 把 账户 信息 打包 放 入 Distributed Cache。 然 后 每 个 
mapper 将 这 些 数据 读 入 一 个 高 效 的 数据 结构 ， 如 使 用 联结 键 作为 哈 希 键 的 
ee e ， 在 处 理 过 程 中 ， 可 以 从 哈 希 表 中 获取 要 用 的 
每 条 由 入 E 9 


这 种 方法 非常 有 效 ， 万 其 是 当 较 小 的 数据 集 可 以 轻易 读 入 内 存 时 ， 这 征 一 
种 很 好 的 做 法 。 然 和 而， 我们 并 非 总 是 如 此 壮 运 ， 有 时 最 小 数据 集 的 规模 也 
很 大 ， 以 至 于 无 法 将 其 拷贝 到 每 台 工 作 机 并 保存 在 内 存 里 。 


一 展 身手 : 实现 map 端 联结 


以 刚才 的 销售 记录 /账户 记录 为 例 ， 使 用 Distributed Cache 实 现 map 端 联结 。 
如 有 果 将 账 尸 记录 载 入 哈 希 表 中 实现 账户 ID 和 客户 名 字 的 映射 ， 那 么 吏 可 以 
用 账户 ID 获取 客户 姓名 。 这 样 天 可 以 在 mapper 处 理 销 售 信息 时 实现 map 端 联 


结 。 


2. 裁剪 数据 以 适合 缓存 大 小 


如 果 最 小 数据 集 对 Distributed Cache?€ Vio ze ACA, JEANS ES EB TE 
段 。 比 如 ， 在 前 面 的 例子 中 ， 我 们 仅 从 每 条 记录 中 提取 了 两 个 字段 并 丢弃 
了 作业 不 需要 的 其 他 字段 。 实 际 上 ， 账 户 有 多 个 属性 ， 这 种 减少 数据 量 的 
方法 会 显著 降低 数据 规模 。 通 常 ，Hadoop 可 访问 的 数据 是 完整 数据 集 ， 但 
是 我 们 需要 的 只 是 其 中 若干 字段 。 


因此 ， 在 此 情况 下 ， 我 们 可 以 从 完整 数据 集中 提取 MapReduce 作 业 需 要 的 字 
段 ， 通 过 这 种 方式 创建 的 裁 攀 数据 集 的 大 小 完全 适合 在 缓存 中 使 用 。 


提示 :， 这 种 方法 与 面向 列 的 数据 库 (column-oriented databases) 的 概念 
非常 相似 。 传统 的 关系 数据 库 每 次 存储 一 行 数据 ， 这 就 意味 着 需要 读 取 
完整 的 一 行 ， 然 后 从 中 提取 某 一 列 的 内 容 。 基 于 列 的 数据 库 则 是 分 别 存 
储 每 一 列 ， 人 允许 每 次 查询 直接 读 取 用 户 感 兴趣 的 列 。 


如 果 采 用 这 种 方法 ， 需 要 考虑 何 种 机 制 可 以 被 用 来 生成 数据 子 集 ， 以 及 执 
行 这 些 操作 的 频率 。 一 种 直接 的 方法 是 编写 另外 一 个 MapReduce 作 业 ， 用 它 
完成 必需 的 过 滤 ， 在 后 续 的 作业 中 将 该 作业 的 输出 用 在 Distributed Cache 

中 。 如 有 果 较 小 数据 集 的 变动 很 小 ， 吏 避免 了 按照 预定 计划 生成 裁 筋 数据 集 
的 麻烦 。 例 如 ， 每 晚 刷新 数据 集 。 和 否则 ， 你 需要 用 到 由 两 个 MapReduce 作 业 
组 成 的 作业 链 : 一 个 作业 用 于 生成 裁剪 数据 集 ， 另 一 个 作业 利用 原始 数据 
集 和 Distributed Cache 中 的 数据 执行 联结 操作 。 


3. 使 用 代表 数据 而 非 原始 数据 


有 了 时， 我 们 使 用 某 个 数据 源 并 非 是 为 了 获取 额外 数据 ， 而 是 为 了 推导 出 一 
些 辅助 决策 的 结论 。 例 如 ， 我 们 可 能 布 望 通过 分 析 销 售 记录 ， 从 中 提取 那 
些 配送 地 址 属于 有 某 一 特定 区 域 的 记录 。 


在 这 种 情况 下 ， 我 们 可 以 将 所 需 数据 的 规模 降 至 一 列 合适 的 销售 记录 ， 它 
们 更 易 被 放 入 缓存 。 同 样 ， 我 们 可 以 将 其 存 入 只 存储 有 效 记 录 的 哈 希 表 ， 
甚至 使 用 类 似 排 序列 表 或 排序 树 的 形式 。 在 可 以 接受 误 报 却 须 保证 没有 漏 
报 的 情况 下 ， 可 以 使 用 Bloom filter 紧凑 地 表示 此 类 信息 。 


可 以 看 出 ， 采 用 这 种 方法 实现 map 端 联结 需要 创新 ， 并 与 数据 集 的 性 质 和 手 
头 的 问题 有 很 大 关系 。 但 是 请 记 住 ， 最 好 的 关系 型 数据 库 管理 员 耗 费 大 量 
时 间 吻 除非 必要 的 数据 处 理 ， 以 达到 优化 查询 的 目的 。 因 此 ， 读 者 需要 时 
常 问 问 自己 是 否 真 的 需要 处 理 所 有 数据 。 


4. 使 用 多 个 mapper 


从 根本 上 说 ， 上 述 技 术 都 在 尽力 避免 实现 多 个 完整 数据 集 之 间 的 联结 。 但 
E CNN 因为 你 可 能 会 遇 到 非常 庞大 的 数据 集 ， 而 且 无 法 用 这 
些 方 法 合并 。 


org.apache.hadoop.mapreduce.1ib.join 包 里 有 一 些 类 支持 这 种 需 
求 。 CompositeInputFormat 是 一 个 有 趣 的 主 类 ， 它 使 用 用 户 定 义 的 函 


数 合 并 多 个 数据 源 的 记录 。 


这 种 方法 的 主要 缺点 是 ， 所 有 数据 源 必 须 以 相同 键 为 索引 ， 并 且 以 相同 方 
法 进行 排序 YA EON 2 因 很 简单 ， 从 每 个 数据 源 读 取 数据 时 ，Hadoop 框 架 
需要 知道 某 个 特定 键 是 否 出 现在 每 条 记录 中 。 假 如 每 个 分 块 都 是 有 序 的 ， 
并 包括 相同 的 键 ， 可 以 使用 简单 的 达 代 程序 完成 所 需 的 匹配 。 


显然 ， 要 处 理 的 数据 不 可 能 恰好 满足 上 述 条 件 ， 所 以 读者 需要 自己 编写 预 
处 理 作业 ， 将 所 有 的 输入 数据 源 转化 成 正确 的 顺序 和 分 块 结构 。 


提示 :， 本 节 讨 论 的 内 容 开 始 涉及 分 布 式 联结 和 并 行 联结 算法 ， 这 些 课题 
都 经 历 了 广泛 的 学 术 人 研究 和 商业 研究 。 如 采 你 对 这 些 内 容 感 兴趣 并 想 学 
习 更 多 的 基础 理论 ， 到 http://scholar.google.com 搜索 相关 内 容 。 


5.3.2. 是否 进 行 联结 


结束 了 MapReduce 的 联结 之 旅 后 ， 让 我 们 回 到 最 开头 的 问题 ， 你 是 否 真 要 进 
行 联结 操作 ? 读者 常常 需要 在 较 易 实现 却 效率 不 高 的 reduce 问 联结 和 较为 高 
效 也 更 为 复杂 的 map 端 联结 之 间 做 出 选择 。 我 们 已 看 到 ， 的 确 可 在 
MapReduce 中 实现 多 个 数据 源 的 联结 ， 但 有 时 源 数 据 并 不 适合 进行 联结 控 
作 。 如 果 执 行 联结 操作 需要 用 户 投 入 大 量 精力 ， 我 们 推荐 使 用 Hive 或 Pig。 
显然 ， 我 们 可 以 使 用 上 述 工具 ， 它 们 在 后 台 生 成 MapReduce 代 码 ， 并 直接 实 
现 map 端 和 reduce 端 联结 。 但 最 好 使 用 一 个 精心 设计 、 经 过 优化 的 代码 库 完 
成 这 些 工 作 ， 而 不 要 目 行 实 现 。 这 也 正 是 我 们 要 使 用 Hadoop 而 不 自己 编写 
分 布 式 处 理 框架 的 原因 。 


5.4 图 算法 


所 有 杰出 的 计算 机 科学 家 都 认为 图 数据 结构 是 最 强大 的 工具 之 一 。 很 多 复 
杂 系 统 都 由 图 来 表示 ， 至 少 几 十 年 前 了 驶 出 现 了 强大 的 算法 知识 体系 来 解决 
i MN 但 由 于 其 本 身 性 质 ， 图 及 图 算法 通常 很 难 用 MapReduce 沁 式 摘 


5.4.1 Graph 101 


我 们 先 对 图 的 相关 术语 进行 定义 。 图 是 由 多 个 通过 边 相连 的 节点 
mo 点 ) 组 成 的 数据 结构 。 根 据 图 的 类 型 ， 边 可 以 是 单 向 边 也 可 
以 是 双 辐 边 ， 也 可 以 有 与 之 关联 的 权重 。 例 如 ， 一 个 城市 的 路 网 可 以 看 做 
一 张 图 ， 其 中 路 是 图 的 边 ， 路 的 交点 和 感 兴趣 的 点 十 图 的 节 上 后。 有 些 路 古 


SIRE 有 些 不 是 ;， 有些 路 要 收 通 行 费 ， 有 些 路 在 某 些 时 候 处 于 封闭 状 


很 多 钱 。 不 同 的 图 算法 通过 综合 考虑 各 条 路 的 属性 得 出 最 住 路 径 。 这 些 属 
性 包括 是 否 古 单行 道 ， 以 及 用 权重 表示 的 通行 成 本 ， 它 决定 了 特定 道路 是 
f ERES ° 

一 个 更 时 绪 的 例子 古 社 交 关 系 图 ， 随 着 Facebook 之 类 的 网 站 越 来 越 受 欢 
迎 ， 这 种 社交 关系 图 也 逐渐 普及 起 来 。 社 交 关 系 图 视 可 被 为 以 人 为 节 扩 ， 
以 他 们 之 间 的 关系 为 边 的 图 。 


5.4.2 ”图 和 MapReduce 


图 与 其 他 MapReduce 冲 | 题 的 主要 区 别 在 于 ， 图 处 理 是 有 状态 的 ， 这 可 以 从 市 
扩 间 的 路 径 天 系 和 图 算法 处 理 的 大 量 广 点 间 的 路 径 天 系 看 出 来 。 图 算法 倾 
器 于 根据 全 局 状态 决定 一 步 要 处 理 的 市 点 ， 并 在 每 步 操 作 中 修改 全 局 状 


尤其 是 ， 大 多 数 闭 名 的 算法 通常 以 增 量 方式 或 可 重 入 方式 执行 ， 它 们 用 不 
同 的 数据 结构 表示 已 处 理 节 点 和 待 处 理 节点 ， 然 后 对 未 处 理 节点 进行 运算 
并 将 该 节点 加 入 到 已 处 理 节 点 集合 中 。 


但 是 ， 从 概念 上 讲 ，MapReduce 作 业 是 无 状态 的 。 它 基于 分 而 治之 的 方法 ， 
每 台 Hadoop 主 机 处 理 全 部 数据 的 一 小 部 分 ， 并 输出 作业 最 终结 果 的 一 部 
分 ， 而 整个 作业 的 最 终 输出 可 以 视 为 这 些 子 任务 输出 的 聚合 。 因 此 ， 使 用 
Hadoop 实 现 图 算法 时 ， 我 们 需要 把 原本 有 状态 的 单线 程 算法 用 无 状态 的 、 
并 行 的 分 布 式 框 染 来 描述 。 这 束 是 最 大 的 挑战 。 


大 部 分 著名 的 图 算法 为 了 找 出 市 点 间 人 符合 需求 的 路 由 (通常 以 某 种 成 本 为 
衡量 标准 ) ， 通 党 使 用 图 搜索 或 图 遍历 的 办 法 。 最 基础 的 图 遍历 算法 是 

DFS (depth-first search， 深 度 搜 索 算 法 ) 和 BFS  (breadth-first search, J™ 
。 两 者 区 别 在 于 ， 某 一 节点 及 其 邻居 节点 被 处 理 的 先后 顺序 


接 下 来 ， 我 们 会 看 到 一 种 特殊 的 衣 历 算法 ， 它 为 图 中 的 给 定 起 始 市 点 计算 
图 中 其 余 所 有 节点 与 该 节点 的 距离 。 


提示 : 可 以 看 出 ， 图 论 和 图 算法 是 一 个 巨大 的 研究 领域 ， 本 书 对 其 介绍 
非常 有 限 。 如 采 读 者 想 了 解 更 多 内 容 ， 可 以 从 Wikipedia 中 关于 图 的 条 目 
开始 ， 参 见 http://en.wikipedia.org/wiki/Graph_(abstract_data_type) ° 


5.4.3 ”图 的 表示 方法 


我 们 面临 的 第 一 个 问题 就 是 ， 如 何 表示 图 才能 使 用 MapReduce 对 其 进行 高 将 
处 理 。 有 几 种 图 的 表示 方法 为 大 家 所 熟知 ， 例 如 基于 指针 的 表示 法 ， 邻 接 
矩阵 表示 法 和 邻接 表 表 示 法 。 在 大 多 数 实 现 中 ， 这 些 表示 法 通常 假设 整个 
图 可 以 存储 在 单个 进程 空间 。 我 们 需要 对 这 些 表 示 法 进行 修改 ， 人 允许 独立 
的 map 和 reduce 任 务 对 个 别 节 点 进行 处 理 。 


在 后 面 的 例子 中 ， 我 们 以 下 图 为 例 进 行 介绍 。 该 图 还 包含 一 些 稍 后 会 讲 到 
的 额外 信息 。 


这 个 图 很 侧 单 ， 只 有 7 个 节点， 其 中 只 有 一 条 单 向 边 ， 其 余 痢 十 双向 边 。 我 
们 使 用 了 标准 图 算法 使 用 的 着 色 方 法 ， 其 中 : 


。 日 色 表 示 示 人 处理 节操 ; 

。 灰色 表示 正在 处 理 的 市 点 ; 

。 黑色 表示 已 处 理 节 点。 
I 


5.5 ”实践 环节 : 图 的 表示 


首先 定义 一 种 图 的 文本 表示 法 ， 后 面 的 例子 中 会 用 到 该 方法 。 
新 建 graph .txt 文件 ， 其 内 容 如 下 : 


原理 分 析 


我 们 定义 了 表示 图 的 文件 结构 ， 在 某 种 程度 上 ， 它 借鉴 了 图 的 邻接 表 表 示 
假设 每 个 万 点 有 1 个 唯一 的 ID ， 该 文件 结构 包括 4 个 字段 ， 具 体内 容 如 
e 万 点 ID 
。 以 逗号 分 隔 的 邻居 列表 
。 与 起 始点 的 距离 
。 市 点 状态 


最 初 ， 只 有 起 始 世 点 的 第 3 个 和 第 4 个 字段 有 值 : 它 与 目 身 的 距离 为 0， 状 态 
为 “C”。 具 体 原因 会 在 后 续 内 容 进行 解释 。 
这 个 图 十 一 个 有 同 图 ， 也 就 是 说 ， 市 点 1 指 疝 市 点 2 的 路 径 与 节 后 2 指 问 市 点 


1 的 路 径 是 两 条 不 同 的 路 径 。 从 图 示 中 可 以 看 到 ， 除 一 条 边 外 ， 其 余 边 的 两 
个 端点 都 有 箭头 。 


由 于 该 算法 及 相应 的 MapReduce 作 业 相 当 复杂 ， 我 们 将 先 解释 算法 ， 然 后 展 
示人 代码， 最 后 在 算法 的 使 用 过 程 中 说 明 其 原理 。 


基于 上 述 表 示 方 法 ， 我 们 定义 一 个 可 多 次 执行 的 MapReduce 作 业 ， 以 获得 最 
终 输出 。 每 次 执行 作业 时 ， 使 用 上 次 作业 运行 的 输出 作为 本 次 运行 的 输 
入 。 


基于 上 节 描 述 的 色 码 ， 我 们 定义 了 节点 的 三 种 状态 ， 如 下 所 述 。 
e Pending: 市 反 尚 未 被 处 理 。 这 是 节点 的 默认 状态 ， 对 应 白色 市 虑 。 
。 Currently processing: 节点 正在 被 处 理 ， 对 应 灰色 节点 。 
。 Done: 已 算出 了 节点 与 起 始点 的 最 终 距离 ， 对 应 黑色 节点 。 
1. mapper 
mapper 读 取 图 的 当前 状态 ， 并 按照 下 述 方 法 处 理 季 点 。 
。 如 果 节 点 状态 为 Done， 原 封 不 动 将 其 输出 。 
。 如 末世 点 状态 为 Currently processing. 把 它 的 状态 改 为 Done， 然 后 输 
出 。 它 的 邻 大 市 点 的 输出 与 该 三 点 类 似 ， FORD IEEE 上 加 
1， 而 邻居 节点 保持 不 变 。 例 如 ， 节 点 1 不 知道 节点 2 的 邻居 节点 。 


。 如 果 广 点 状态 为 Pending， 将 其 状态 改 为 Currently processing 并 输出 。 


2. reducer 


reducer 会 收 到 每 个 节点 的 一 条 或 多 条 记录 ， 它 会 把 这 些 记 录 值 合并 成 节点 
的 最 终 输 出 。 


reducer 的 主要 算法 如 下 : 
。 状态 为 Done 的 节点 的 输出 即 为 最 终 输 出， 无 需 对 其 值 进一步 处 理 ; 


e 对 处 于 其 他 状态 的 节点 ， 提 取 其 邻居 列表 ， 从 中 找 出 最 远 距 离 和 节 辟 
状态 作为 最 终 输出 。 


3. 迭代 应 用 
如 果 我 们 应 用 一 次 该 算法 ， 节 点 1 被 标记 为 Done， 它 的 直接 邻居 被 标记 为 
Currently processing, ZR 点 都 被 标记 为 Pending 。 依次 应 用 该 算法 会 使 所 


有 市 点 部 转 为 Done 状 态 。 因 为 每 个 节操 总 会 被 处 理 ， 它 的 邻居 部 被 纳入 正 
在 处 理 队列 。 稍 后 我 们 会 演示 该 过 程 。 


5.6 ”实践 环节 : 创建 源 代 码 


我 们 现在 讲解 实现 图 遍历 算法 的 源 代 码 。 因 为 代码 较 长 ， 我 们 将 其 分 为 几 
个 部 分 。 显 然 ， 这 些 代码 应 当 放 在 同一 个 源 文件 中 。 


1. 狐 建 GraphPath.java 文 件 ， 谎 加 下 列 引用 声明 。 


import java.io.* ; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce.*; 

import org.apache.hadoop.mapreduce.lib.input.*; 
import org.apache.hadoop.mapreduce.lib.output.*; 


public class GraphPath 
t 


2. 创建 内 部 类 ， 以 面 加 对象 的 方法 表示 和 点 。 


// Inner class to represent a node 
public static class Node 


// The integer node id 
private String id ; 

// The ids of all nodes this node has a path to 
private String neighbours ; 

// The distance of this node to the starting node 
private int distance ; 

// The current node state 
private String state ; 


// Parse the text file representation into a Node object 
Node( Text t) 


String[] parts - t.toString().split("Nt") ; 
this.id - parts[0] ; 
this.neighbours - parts[1] ; 
if (parts.length 


3. 创建 作业 的 mapper。 该 mapper 新 建 一 个 Node 对 象 接收 输入 数据 ， 并 根 
据 Node 对 象 的 状态 执行 相应 操作 。 


public static class GraphPathMapper 
extends Mapper 


{ 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException 


{ 


Node n = new Node(value) ; 
if (n.getState().equals("C")) 


// Output the node with its state changed to Done 
context.write(new Text(n.getId()), new 
Text(n.getNeighbours()-*"Nt"«n.getDistance( )*"Nt"-"D")) ; 
for (String neighbour:n.getNeighbours().split(",")) 


{ 


// Output each neighbour as a Currently processing node 

// Increment the distance by 1; it is one link further away 
context.write(new Text(neighbour), newText("\t"+ 

(n.getDistance()-*1)-"NtC")) ; 


} 


else 


{ 
// Output a pending node unchanged 
context.write(new Text(n.getId()), 
newText(n.getNeighbours()-*"Nt"«*n.getDistance()-*"Nt"«n.getState())) ; 


4. 创建 作业 的 reducer。 与 mapper 一 样 ， 该 reducer 读 取 世 点 记录 ， 并 根据 
万 点 状态 输出 不 同 的 值 。 基 本 方法 是 ， 从 输入 数据 提取 状态 和 距离 字 
段 的 最 大 值 ， 并 把 这 些 值 汇聚 成 最 终 输出 。 


public static class GraphPathReducer 
extends Reducer 


t 
public void reduce(Text key, Iterable values, 
Context context) 
throws IOException, InterruptedException 
t 


// Set some default values for the final output 
String neighbours - null ; 

int distance - -1 ; 

String state - "P" ; 


for(Text t: values) 


Node n - new Node(key, t) ; 
if (n.getState().equals("D")) 


// A done node should be the final output; ignore the remaining 
// values 
neighbours - n.getNeighbours() ; 

distance - n.getDistance() ; 

state - n.getState() ; 

break ; 


} 


// Select the list of neighbours when found 
if (n.getNeighbours() !- null) 
neighbours - n.getNeighbours() ; 


// Select the largest distance 
if (n.getDistance() » distance) 
distance - n.getDistance() ; 


// Select the highest remaining state 
if (n.getState().equals("D") || 
(n.getState().equals("C") &&state.equals("P"))) 
state-n.getState() ; 
F 


// Output a new node representation from the collected parts 


context.write(key, newText(neighbours+"\t"+distance+"\t"+state)) ; 


5. 创建 作业 驱动 。 


public static void main(String[] args) throws Exception 

{ 
Configuration conf = new Configuration(); 
Job job - new Job(conf, "graph path"); 
job.setJarByClass(GraphPath.class); 
job.setMapperClass(GraphPathMapper.class); 
job.setReducerClass(GraphPathReducer.class); 
job.setOutputKeyClass(Text.class); 
job.setOutputValueClass(Text.class); 
FileInputFormat.addInputPath(job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 

System.exit(job.waitForCompletion(true) ? O : 1); 

} 


原理 分 析 


该 作业 实现 了 之 前 描述 的 算法 ， 下 节 将 会 执行 该 算法 。 作 业 设 置 没 什么 特 
别 的 ， 除 了 算法 定义 ， 还 首次 使 用 内 部 类 来 表示 节点 。 
通常 ，mapper 或 reducer 的 输入 是 对 复杂 结构 或 对 象 的 扁平 化 表示 。 我 们 可 


以 使 用 那 种 表示 方法 ， 但 这 样 会 导致 mapper 和 reducer 中 充满 了 文本 和 字符 
串 操 作 代 码 ， 不 利于 理解 算法 本 号。 


使 用 Node 内 部 类 ， 实 现 了 从 局 平 的 文本 文件 向 封装 对 象 的 映射 ， 这 种 用 对 


象 表示 节点 的 方法 在 业务 领域 很 有 意义 。 从 语义 来 说 ， 不 同 对 象 之 间 的 属 
性 对 比 要 比 字符 串 对 比 更 有 意义 ， 这 也 使 得 mapper 和 reducer 的 逻辑 更 为 清 


Eo 


5.7 ”实践 环节 : 第 一 次 运行 作业 
现在 ， 我 们 使 用 该 算法 对 图 进行 首次 运算 。 
1. 将 之 前 创建 的 graph .txt 文件 放 到 HDFS 。 


$ hadoop fs -mkdirgraphin 


$ hadoop fs -put graph.txtgraphin/graph.txt 


2. 编译 源 文件 并 创建 JAR 文 件 。 


$ javac GraphPath.java 


$ jar -cvf graph.jar *.class 


3. 执行 MapReduce 作 业 。 


$ hadoop jar graph.jarGraphPathgraphingraphouti 


4. 检查 输出 文件 。 


$ hadoop fs -cat /home/user/hadoop/graphout1/part-r00000 
12,3, 40D 

21,41C 

31,5,61C 

41, 21C 

53,6-1P 

63,5-1P 

76-1P 


原理 分 析 


将 数据 产 文 件 放 到 HDFS 上 并 创建 了 作业 JAR 文 件 之 后 ， 我 们 在 Hadoop 上 执 
行 作业 。 输 出 结果 显示 ， 该 图 发 生 了 一 些 变化 ， 具 体 如 下 : 


。 下 点 1 被 标记 为 Done 状 态 。 显 然 ， 它 与 目 身 的 距离 是 0; 


EH. 
人 


3、4 作 为 斑点 1 的 邻 拓 ， 被 标记 为 Currently processing 1? S; 
余 节 点 都 被 标记 为 Pending ° 
经 过 一 次 MapReduce 处 理 之 后 ， 该 图 状态 如 下 所 示 。 


i x 


运行 结果 和 算法 描述 相 吻 合 ， 一 切 都 在 预料 之 中 。 第 一 个 节点 已 处 理 完 
毕 ，mapper 提 到 的 邻居 下 点 正在 处 理 中 ， 其 余 和 点 还 没 开始 处 理 。 


5.8 ”实践 环节 : 第 二 次 运行 作业 

假如 我 们 把 上 步 的 输出 结果 作为 下 次 作业 运行 的 输入 ， 我 们 认为 太 点 2、 
3、4 将 处 于 Done (已 处 理 ) 状态 ， 它 们 的 邻居 世上 点 将 处 于 Currently 
processing. (正在 处 理 ) 状态 。 执 行 下 列 步 又 ， 看 看 我 们 的 猜想 是 否 正 确 。 


1. 执行 下 列 命令 ， 运 行 MapReduce 作 业 。 


$ hadoop jar graph.jarGraphPathgraphout1graphout2 


2. 检查 输出 文件 。 


$ hadoop fs -cat /home/user/hadoop/graphout2/part-r000000 
12,3, 40D 

21,41D 

31,5,61D 

41,21D 

53,62C 

63,52C 

76-1P 


原理 分 析 


果然 不 出 所 料 ， 经 过 第 二 次 处 理 后 ， 节 点 1~4 处 于 已 处 理 状态 ， 节 点 5 和 市 
点 6 处 于 正在 处 理 状态 ， 市 点 7 处 于 未 处 理 状态 ， 如 下 图 所 示 。 


假如 再 次 运行 作业 ， 我 们 认为 ， 亨 点 5 和 节点 6 的 状态 会 变 为 Done， 其 余 示 
处 理 的 邻居 市 点 状态 会 变 为 Currently processing ° 


5.9 ”实践 环节 : 第 三 次 运行 作业 
第 三 次 执行 算法 ， 验 证 我 们 的 预测 是 否 正确 。 


1. 执行 MapReduce 作 业 。 


$ hadoop jar graph.jarGraphPathgraphout2graphout3 


2. 检查 输出 文件 。 


$ hadoop fs -cat /user/hadoop/graphout3/part-r-00000 
12, 3, 40D 


21, 41D 
31, 5, 61D 
41, 21D 
53, 62D 
63,52D 
76-1P 


原理 分 析 


现在 ， 我 们 看 到 节点 1~6 处 于 Done 状 态 。 但 节点 7 仍 处 于 pending (RAAH) 
状态 且 没 有 节点 正在 被 处 理 ， 如 下 图 所 示 。 


之 所 以 出 现 这 种 情况 ， 是 由 于 虽然 存在 一 条 以 闻 点 7 为 起 点 、 节 点 6 为 终点 
的 边 ， 却 不 存在 反问 边 ， 造成 节点 6 无 法 访问 节点 7 。 因 此 ， 从 节点 1 出 发 天 
法 到 达 节 点 7。 如 果 最 后 运行 一 次 算法 ， 我 们 认为 该 图 保持 不 变 。 


5.10 ”实践 环节 : 第 四 次 也 是 最 后 一 次 运行 作业 


让 我 们 再 运行 一 次 作业 ， 验 证 作业 输出 是 否 已 达到 最 终 稳定 状态 。 


1. 执行 MapReduce 作 业 。 


$ hadoop jar graph.jarGraphPathgraphout3graphout4 


2. 检查 输出 文件 。 


$ hadoop fs -cat /user/hadoop/graphout4/part-r-00000 
12,3,40D 

21,41D 

31,5,61D 

41, 21D 

53, 62D 

63,52D 

76-1P 


原理 分 析 


输出 的 结果 与 预期 一 怪 。 因 为 从 节点 1 或 其 邻居 市 点 出 发 无 法 到 达 市 点 7， 
所 以 节点 7 的 状态 仍 为 Pending (未 人 处理 ， 且 永远 无 法 对 其 进行 处 理 。 因 
此 ， 该 图 已 达到 稳定 状态 ， 其 输出 保持 不 变 ， 如 下 图 所 示 。 


我 们 的 算法 中 未 加 入 对 其 是 否 满 足 结束 条 件 的 判断 。 如 果 经 过 某 次 运算 
后 ， 该 图 不 再 产生 新 的 Done 或 Currently processing 节 点 ， 即 完成 了 整个 运算 
过 程 。 


本 章 ， 我 们 使 用 手工 方法 判断 算法 是 否 满足 结束 条 件 ， 也 就 是 说 ， 我 们 通 
过 实验 得 知 该 图 已 达到 最 终 的 稳定 状态 。 然 而 ， 可 以 通过 编程 实现 这 个 功 
能 。 在 下 一 章 中 ， 我 们 会 学 习 自 定义 的 作业 计数 器 ， 使 用 它 即 可 实现 该 功 
能 。 例 如 ， 每 当 新 建 一 个 Done 或 Currently processing 广 点 的 时 候 ， 计 数 妮 的 
值 加 1。 只 有 在 某 次 作业 完成 运行 后 ， 计 数 器 的 值 大 于 0 时 ， 才 会 再 次 执行 
人 作业。 否则， 即 可 认为 该 图 达到 了 最 终 稳定 状态 。 

5.10.1 运行 多 个 作业 

在 上 述 算 法 中 ， 我 们 首次 明确 地 把 一 个 MapReduce 作 业 的 输出 当做 另 一 个 作 
业 的 输入 。 在 大 多 数 情况 下 ， 这 些 接续 执行 的 作业 之 间 是 有 所 区 别 的 。 然 
m UR 的 ， 反 复 执 行 同一 个 算法 直到 其 输出 达到 稳定 状态 是 
很 有 意义 的 。 


5.10.2 ”关于 图 的 终极 思考 


对 熟悉 图 算法 的 人 来 说 ， 上 壕 处 理 方法 显得 非常 陌生 。 其 实 ， 这 是 使 用 一 
系列 无 状态 的 MapReduce 作 业 实 现 一 个 有 状态 的 、 递 归 的 、 可 重 入 的 图 算法 
的 必然 结果 。 我 们 要 强调 的 并 非 用 到 的 特定 算法 ， 而 是 如 何 采 用 纯 文 本 结 
构 和 一 系列 MapReduce 作 业 实 现 图 所 历 的 经 验 。 你 可 能 会 遇 到 一 些 乍 看 上 去 
似乎 无 法 使 用 MapReduce 范 式 解 决 的 问题 。 此 时 ， 认 真 思考 本 章 用 到 的 一 些 
技术 ， 同 时 请 记 住 ， 许 多 算法 都 可 以 使 用 MapReduce 建 模 。 它 们 可 能 看 似 与 
Hol Sese 但 我 们 的 目标 是 输出 正确 结果 ， 而 非 实现 一 种 已 
[算法 。 


5.11 使 用 语言 无 关 的 数据 结构 


开发 者 往往 会 批评 Hadoop 的 一 切 设 计 都 以 Java 为 中 心 ，Hadoop 团 队 一 直 在 
努力 解决 这 个 问题 。 这 种 批评 似乎 有 点 奇怪 ， 难 到 一 个 用 Java 语 言 实现 的 项 
目 不 该 以 Java 为 中 心 吗 ? 但 从 用 户 的 角度 考虑 ， 他 们 希望 不 依赖 于 特定 语言 
实现 对 Hadoop 的 操作 。 


在 第 4 章 ， 我 们 已 演示 了 使 用 Hadoop Streaming 脚 本 实现 map 和 reduce 任 务 的 
方法 。 同 时 ， Pipes 也 提供 了 类 似 的 使 用 C++ 实现 map 和 reduce 任 务 的 技术 。 
然而 ， 有 一 个 地 方 仍 只 能 使 用 Java， MapReduce 支 持 的 输入 
格式 。 歼 率 最 高 的 输入 格式 是 SequenceFile, 它 是 一 种 支持 压缩 和 分 块 的 二 
进 制 文件 。 但 是 ， SequenceFile Fd At T Java A ABI. 用 户 无 法 使 用 其 他 语言 
读 写 SequenceFile ° 


我 们 可 以 使 用 外 部 进程 创建 用 于 MapReduce 作 业 的 数据 ， 最 佳 方式 是 用 文本 
格式 输出 生成 的 数据 ， 或 者 对 生成 的 数据 进行 预 处 理 ， 将 其 转换 为 
SequenceFile。 我 们 还 要 想 办 法 简化 复杂 数据 类 型 的 表示 : 要 么 将 它们 转换 
六 文本 格式 ， 要 么 编写 两 种 二 进 制 格式 的 转换 侣 。 这 些 方法 都 不 是 很 理 


5.11.1 ”候选 技术 


焉 运 的 是 ， 近 年 来 出 现 了 一 些 技术 可 以 解决 这 种 跨 语 言 的 数据 表示 问题 。 

这 些 技术 包括 Protocol Buffers (Google 创 建 的 项 目 ， 其 网 址 为 
http://code.google.com/p/protobuf ) ` Thrift (该 项 目 最 初 由 Facebook 创 建 ， 

目前 是 一 个 Apache 子 项 目 ， 其 网 址 为 http://thrift.apache.org ) 以 及 Avro (该 
项 目 由 Hadoop 的 创建 者 Doug Cutting 所 创建 ) 。 由 于 Avro 的 创建 者 与 Hadoop 
相同 ， 我 们 将 使 用 它 来 研究 这 个 问题 。 本 书 中 不 会 讲 到 Thrift 和 Protocol 
Buffers， 但 它们 都 是 成 熟 的 技术 。 如 果 你 对 数据 序列 化 的 问题 感 兴趣 ， 请 
访问 它们 的 主页 获取 更 多 信息 。 


5.11.2 ”Avro 简介 


Avro 是 一 种 数据 存储 框架 ， 可 使 用 多 种 编程 语言 对 其 进行 操作 ， 其 主页 地 
址 为 http://avro.apache.org 。Avro 创 建 了 一 种 可 压缩 和 可 切 分 的 二 进 制 结 构 
化 数据 格式 ， 换 句 话 说 ， 它 可 以 有 歼 地 用 于 同 MapReduce 作 业 输 入 数据 。 


Avro 文 持 层次 化 的 数据 结构 ， 因 此 ， 我 们 可 以 在 一 个 Avro 记录 中 砚 套数 

组 、 枚 举 类 型 其 至 是 一 个 子 记 录 。 我 们 可 以 用 任何 程序 语言 创建 此 类 数据 
文件 ， 用 Hadoop 对 其 进行 处 理 ， 并 使 用 第 三 方 语言 恋 取 结果 。 

下 一 节 ， 我 们 将 讨论 Avro 的 语言 独立 性 ， 而 其 表达 复杂 结构 类 型 的 能 力也 
很 重要 。 即 便 只 使 用 Java 语 言 ， 我 们 可 以 把 用 Avro 表示 的 复杂 数据 结构 作为 
输入 输出 类 型 。 即 使 是 像 图 点 这 么 复杂 的 数据 结构 都 
没 问 题 。 


5.12 ”实践 环节 : 获取 并 安装 Avro 


下 面 ， 我 们 将 下 载 Avro 并 将 其 安 朔 在 目 己 的 主机 上 。 


1. 从 http://avro.apache.org/releases.html 下 载 Avro 的 最 新 稳定 版 本 。 


2. 从 http://paranamer.codehaus.org 下 载 最 新 版 的 ParaNamer 库 。 


3. 将 下 述 3 个 JAR 类 添加 到 build classpath， 以 供 Java 编 译 絮 所 用 。 


$ export CLASSPATH-avro-1.7.2.jar:$(CLASSPATH) 
$ export CLASSPATH-avro-mapred-1.7.2.jar:$(CLASSPATH) 
$ export CLASSPATH-paranamer-2.5.jar:$ ( CLASSPATH) 


4. 将 Hadoop 安 装 路 径 下 的 JAR 文 件 添 加 人 到 build classpath ° 


Export CLASSPATH=${HADOOP_HOME}/lib/Jackson-core-asl- 
1.8.jar:$(CLASSPATH) 

Export CLASSPATH-$[([HADOOP HOME)/1lib/Jackson-mapred-asl- 
1.8.jar:$(CLASSPATH) 

Export CLASSPATH-$[([HADOOP HOME)/lib/commons-cli- 
1.2.jar:$(CLASSPATH) 


5. 将 新 JAR 文 件 添加 到 Hadoop lib 目录 。 


$cpavro-1.7.2.jar ${HADOOP_HOME}/lib 
$cpavro-1.7.2.jar $(HADOOP HOME)/lib 
$cpavro-mapred-1.7.2.jar $(HADOOP HOME) /lib 


原理 分 析 


Avro 的 设置 稍微 有 点 复杂 ， 它 的 创建 时 间 比 我 们 将 用 到 的 其 他 Apache 工 具 
晚 得 多 ， 因 此 ， 它 的 设置 不 光 是 下 载 一 个 文件 那么 简单 。 


我 们 从 Apache 网 站 下 载 了 avro-1.7.2.jar 和 avro-mapred-1.7.2.jar 文 件 。 因 为 这 
两 个 文件 依赖 于 ParaNamer， 所 以 我 们 又 从 http://paranamer.codehaus.org 下 
载 了 paranamer-2.5.jar ° 


提示 :， 作 者 在 创作 本 书 时 ，ParaNamer 主 页 上 的 下 载 链接 出 现 了 问题 。 作 
为 替代 方案 ， 试 一 下 下 面 这 个 下 载 链接 : 
http://search.maven.org/remotecontent? 
filepath-com/thoughtworks/paranamer/paranamer/2.5/paranamer-2.5.jar 


在 下 载 到 上 述 JAR 文 件 之 后 ， 需 要 把 它们 添加 到 Java 编 译 器 要 用 到 的 
classpath 中 。 与 此 同时 ， 我 们 还 需要 把 编译 和 运行 Avro 代码 要 用 到 的 几 个 包 
添加 到 Hadoop 的 build classpath ° 


最 后 ， 我 们 把 这 三 个 新 JAR 文 件 拷贝 到 集群 中 每 台 主 机 的 Hadoop lib 目录 
下 。 这 样 ， 在 运行 map 和 reduce 任 务 的 时 候 就 可 以 使 用 这 些 类 。 我 们 也 可 以 
使 用 其 他 方法 实现 上 述 JAR 文 件 的 分 发 ， 但 这 是 最 简单 的 方式 。 


Avro 及 其 模式 


与 Thrift 和 Protocol Buffers 之 类 的 工具 相 比 ，Avro 的 一 个 优势 在 于 它 对 描述 
数据 文件 的 模式 的 处 理 方 法 。 其 他 工具 都 要 求 模式 以 独立 资源 的 形式 存 
在 ， 而 Avro 数据 文件 将 模式 编码 到 该 文件 头 部 ， 这 样 ， 代 码 无 需 独 立 的 模 
式 文件 即 可 解析 数据 文件 。 


Avro 文 持 但 不 需要 代码 生成 功能 ， 该 功能 为 特定 的 数据 模式 生成 定制 代 
码 。 在 某 些 情况 下 ， 这 十 一 种 重要 的 优化 措施 ， 却 不 是 必须 的 。 


因此 ， 我 们 可 以 写 出 一 系列 从 来 没有 真正 用 到 数据 文件 模式 的 Avro 例 程 ， 
但 我 们 只 会 在 部 分 数据 处 理 任务 中 那样 做 。 下 面 的 例子 中 ， 我 们 定义 一 个 
表示 删 减 过 的 UFO 目 击 事件 记录 的 数据 模式 。 


5.13 ”实践 环节 :定义 模式 
下 面 ， 我 们 将 在 单独 的 Avro 模式 文件 中 创建 简化 的 UFO 模 式 。 
将 以 下 内 容 保存 为 ufo.avsc 文件 。 


{ "type": "record", 
"name": "UFO_Sighting_Record", 
"fields" : [ 
["name": "sighting date", "type": "string"), 
("name": "city", "type": "string"), 
("name": "shape", "type": ["null", "string"]), 
("name": "duration", "type": "float" 


] 
j 


原理 分 析 


可 以 看 出 ，Avro 在 其 模式 中 使 用 了 JSON 格 式 ，Avro 模 式 文件 名 通常 
以 ,avsc 为 后 级 。 刚 才 ， 我 们 创建 了 一 个 模式 ， 其 格式 包括 4 个 字段 ， 各 字 
段 的 含义 如 下 所 示 : 


。 Sighting date 字段 类 型 为 string。 它 以 yyyy-mm-dd 这样 的 形式 保存 日 
期 ; 


。 City 字段 类 型 为 string。 它 表示 的 是 UFO 目 击 事件 发 生 的 城市 名 : 
。 Shape 字段 类 型 为 string。 这 是 一 个 可 选 字 段 ， 表 示 的 是 UFO 的 形状 ; 


* Duration 字段 以 小 数 形式 表示 目击 事件 的 持续 时 间 ， 该 字段 以 分 钟 为 


单位 。 


我 们 将 按照 已 定义 的 模式 ， 创 建 一 些 样 本 数据 。 
5.14 ”实践 环节 :使 用 Ruby 创 建 Avro 源 数据 


下 面 ， 我 们 使 用 Ruby 创 建 样 本 数据 ， 以 说 明 Avro 的 跨 语言 特性 。 


1. 安装 rubygems 包 。 


$ sudo apt-get install rubygems 


2. 安装 Avro gem ° 


$ gem install avro 


3. 将 下 列 代 码 保存 为 generate,rb 文件 。 


require 'rubygems' 
require 'avro' 


file - File.open('sightings.avro', 
schema - Avro::Schema.parse( 
File.open("ufo.avsc", "rb").read) 


'wb') 


writer = Avro::I0::DatumWriter.new(schema) 
dw = Avro::DataFile::Writer.new(file, writer, 


"shape" => "cylinder", "duration" => 1.2] 


"shape" => "saucer", 
dw.close 


"duration" => 0.25} 


4. 运行 generate .rb 创建 数据 文件 。 


dw<< ("sighting date" => "2012-01-12", "city" 
"shape"-» "diamond", "duration" => 3.5) 

dw<< (["sighting date" => "2011-06-13", "city" 
"shape"-» "light", "duration" => 13} 

dw<< (["sighting date" => "1999-12-31", "city" 
"shape" => "light", "duration" -» 0.25) 

dw<< ("sighting date" => "2001-08-23", "city" = 


dw«« (["sighting date" => "1975-11-09", "city" 
"duration" => 5} 

dw<< {"sighting_date" => "2003-02-27", "city" = 
"light", "duration" => 0.5} 

dw<< {"sighting_date" => "2007-04-12", "city" 
"shape"=> "diamond", "duration" => 3.5} 

dw<< {"sighting_date" => "2009-10-10", "city" 
"formation", "duration" => 0} 

dw<< {"sighting_date" => "2012-04-10", "city" = 
"shape" => "blur", "duration" => 6} 

dw<< {"sighting_date" => "2006-06-15", "city" 


schema) 

=> "Boston", 

=> "London", 

=> "New York", 

=> "Las Vegas", 

=> "Miami", 

=> "Paris", "shape"=> 
=> "Dallas", 

=> "Milan", "shape"=> 
=> "Amsterdam", 


"Minneapolis", 


$ ruby generate.rb 


原理 分 析 


在 使 用 Ruby 之 前 ， 要 保证 已 在 Ubuntu 主 机 上 安装 J 。 随 后， 
我 们 为 Ruby 安 装 号 它 要 用 到 的 Avro gem， 该 文件 早已 存在 。 上 壕 操 作 提供 了 
使 用 Ruby 语 言 读 写 Avro 文 件 需 要 的 代码 库 。 


generate. rb 脚本 仅 负责 读 和 信之 前 定义 的 模式 ， 并 生成 一 个 包含 10 条 测试 
记录 的 数据 文件 。 接 着 ， 我 们 运行 该 脚本 生成 测试 数据 。 


本 广内 容 不 ,会 讲解 Ruby 内 使用 ， 因此 读者 需要 目 行 分 析 程 序 中 用 到 的 Ruby 
API。 相 应 的 文档 参见 http://rubygems.org/gems/avro ° 


5.15 ”实践 环节 : 使 用 Java 语 言 编 程 操作 Avro 数 据 


oem 万 已 经 生成 了 Avro 数据 ， 接 下 来 ， 编 写 Java 程 序 对 这 些 数 据 进行 操 


1. 把 下 列 代码 保存 为 InputRead , java 文件。 


import java.io.File; 
import java.io.IOException; 


import org.apache.avro.file.DataFileReader; 

import org.apache.avro.generic.GenericData; 

import org.apache.avro. generic.GenericDatumReader; 
import org.apache.avro.generic.GenericRecord; 
import org.apache.avro.io.DatumReader; 


public class InputRead 
t 


public static void main(String[] args) throws IOException 
String filename = args[0] ; 


File file-new File(filename) ; 
DatumReader reader- new 
GenericDatumReader(); 
DataFileReaderdataFileReader-new 
DataFileReader(file,reader); 


while (dataFileReader.hasNext()) 


GenericRecord result-zdataFileReader.next(); 

String output = String.format("96s 96s 96s %f", 
result.get("sighting date"), result.get("city"), 
result.get("shape"), result.get("duration")) ; 


System.out.println(output) ; 


} 


} 


2. 编译 并 运行 InputRead .java ° 


$ javacInputRead.java 
$ java InputReadsightings.avro 


输出 结果 应 当 如 下 图 所 示 。 
画 


hadbop( ym 16- —/avro 


File Edit view Terminal Help 
hadoopQvml18:-/avro$ javac InputRead.;ave 
hadoopgvm15:-/avro$ java InputRead sightings.avro 
2012-01-12 Boston diamond 3.500000 
2011-06-13 London light 13.000000 
1999-12-31 New York light 0.250000 
2001-C8.23 Las Vegas cylinder 1.200000 
1975-11-09 Miami null 5.000000 
z2c03-02-27 Paris light 0.500000 
2007-04-12 Dallas diamond 3.500000 
2006-10-19 Milan formation 0.000000 
2012-04-10 Amsterdam blur 6.000000 
2CO6-06-15 Minneapolis saucer 0.250000 
hadoopQvm15: -/avro$ | 


原理 分 析 


我 们 定义 了 Java 类 InputRead ， 它 通过 命令 行 参 数 接收 竺 处 理 的 文件 名 ， 
并 把 该 文件 当做 Avro 数据 文件 进行 解析 。Avro 从 数据 文件 读 取 的 每 个 元 又 
家 称 为 datum， 每 个 datum 都 遵循 数据 模式 定义 的 数据 结构 。 


本 例 中 ， 我 们 没有 使 用 明确 的 模式 ， 而 是 把 每 个 datum 读 入 
GenericRecord 类 ， 并 使 用 字段 名 从 中 提取 各 个 字段 的 值 。 


Avro 中 的 GenericRecord 类 非常 灵活 ， 它 可 被 用 于 封装 任何 数据 结构 ， 
比如 示例 中 用 到 的 UFO-sighting 类 型 。Avro 也 支持 原生 类 型 ， 如 整 型 、 浮 点 
型 、 布 尔 型 ， 以 及 其 他 结构 类 型 ， 如 数组 和 枚 举 。 在 这 些 例子 中 ， 我 们 将 
记录 用 作 最 常用 的 结构 ， 但 这 只 是 为 了 方便 。 


在 MapReduce 中 使 用 Avro 


Avro 对 MapReduce 的 支持 主要 体现 在 ，Avro 对 若干 个 常见 类 进行 了 改写 ， 实 
现 了 Avro 特 有 变种 。 我 们 通常 希望 ，Hadoop 通 过 改写 InputFormat 和 
OutputFormat 类 实现 对 新 数据 文件 格式 的 支持 。 我 们 将 使 用 AvroJob ` 
AvroMapper 和 AvroReducer 代替 非 Avro 有 版 本 的 类 。AvrojJob 和 希望 使 用 Avro 
数据 文件 作为 输入 和 输出 ， 所 以 我 们 使 用 输入 和 输出 的 Avro 数据 模式 对 
AvroJob 进 行 配置 ， 而 不 再 指定 输入 和 输出 数据 的 格式 类 型 。 


AvroMapper、AvroReducer 与 通用 mapper、reducer 的 主要 区 别 在 于 使 用 的 数 
据 类 型 。 默 认 情 况 下 ，Avro 的 输入 输出 是 单一 的 ， 而 Mapper 和 Reducer 
类 要 求 使 用 键 值 对 作为 输入 输出 类 型 。 为 此 ，Avro 引 入 了 Pair 类 ， 该 类 通 
常用 于 输出 处 理 过 程 中 产生 的 临时 键 值 数 据 。 


Avro 还 支持 AvroKey 和 AvroValue ， 它 们 可 以 封装 其 他 数据 类 型 ， 但 是 下 面 
示例 中 没有 用 到 这 两 个 类 型 。 


5.16 ”实践 环节 :在 MapReduce 中 统计 UFO 形 状 


本 节 ， 我 们 将 编写 一 个 mapper， 它 以 前 面 定义 好 的 UFO 目 击 事 件 记 录 为 输 
入 。 它 会 输出 相应 的 UFO 形 状 和 值 1 ，reducer 会 利用 mapper 的 输出 生成 一 个 
新 的 Avro 数据 类 型 ， 它 包括 了 每 个 UFO 形 状 出 现 的 次 数 。 执 行 下 列 步 又 完 
成 该 任务 。 


1. fisightings.avro 文件 拷贝 到 HDFS ° 


$ hadoopfs -mkdiravroin 
$ hadoopfs -put sightings.avroavroin/sightings.avro 


2. 把 下 列 代 码 保存 为 AvroMR java 文件 。 


import java.io.IOException; 

import org.apache.avro.Schema; 

import org.apache.avro.generic.*; 

import org.apache.avro.Schema.Type; 

import org.apache.avro.mapred.*; 

import org.apache.avro.reflect.ReflectData; 


import org.apache.avro.util.Utf8; 
import org.apache.hadoop.conf.*; 

import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.mapred.*; 
import org.apache.hadoop.mapreduce. Job; 
import org.apache.hadoop.io.* ; 

import org.apache.hadoop.util.*; 


// 定 义 输出 记录 的 数据 结构 


class UFORecord 


t 
UFORecord( ) 
{ 
} 
public String shape ; 
public long count ; 
H 
public class AvroMR extends Configured implements Tool 


1 

// 创建 map 输 出 的 模式 
public static final Schema PAIR SCHEMA 

-Pair.getPairSchema(Schema.create(Schema.Type.STRING), Schema.create(Schema.Type.LONG 

)); 

// 创建 reduce 输 出 的 模式 

public final static Schema OUTPUT_SCHEMA = 

ReflectData.get().getSchema(UFORecord.class); 


QOverride 
public int run(String[] args) throws Exception 


t 


JobConfconf - new JobConf(getConf(), getClass()); 
conf.setJobName("UFO count"); 


String[] otherArgs - new GenericOptionsParser(conf, args). 
getRemainingArgs(); 

if (otherArgs.length !- 2) 

1 
System.err.println("Usage: avro UFO counter "); 
System.exit(2); 


} 


FileInputFormat.addInputPath(conf, new Path(otherArgs[0])); 

Path outputPath - new Path(otherArgs[1]); 

FileOutputFormat.setOutputPath(conf, outputPath); 
outputPath.getFileSystem(conf).delete(outputPath); 

Schema input schema zSchema.parse(getClass().getResourceAsStream("ufo.avsc")); 
AvroJob.setInputSchema(conf, input schema); 
AvroJob.setMapOutputSchema(conf,Pair.getPairSchema(Schema.create(Schema.Type.STRING) 
,Schema.create(Schema.Type.LONG))); 


AvroJob.setOutputSchema(conf, OUTPUT SCHEMA); 
AvroJob.setMapperClass(conf, AvroRecordMapper.class); 
AvroJob.setReducerClass(conf, AvroRecordReducer.class); 
conf.setInputFormat(AvroInputFormat.class) ; 
obClient.runJob(conf); 


return 0 ; 


} 


public static class AvroRecordMapper extends 
AvroMapper> 


{ 


QOverride 
public void map(GenericRecord in, AvroCollector«Pair«Utf8, 
Long»» collector, Reporter reporter) throws IOException 


1 
Pair p - new Pair(PAIR SCHEMA) ; 
Utf8 shape = (Utf8)in.get("shape") ; 
if (shape !- null) 


i 
p.set(shape, 1L) ; 
collector.collect(p); 


} 
} 

public static class AvroRecordReducer extends 
AvroReducer 


{ 


public void reduce(Utf8 key, Iterable values, 
AvroCollector collector, 
Reporter reporter) throws IOException 
{ 


long sum = 0; 
for (Long val : values) 


1 
} 


GenericRecord value = new 
GenericData.Record(OUTPUT SCHEMA); 


sum += val; 


value.put("shape", key); 
value.put("count", sum); 


collector.collect(value); 


} 
} 
public static void main(String[] args) throws Exception 
{ 


int res = ToolRunner.run(new Configuration(), new AvroMR(), args); 
System.exit(res); 


j 


3. 编译 并 运行 作业 。 


$ javacAvroMR. java 
$ jar -cvfavroufo.jar *.class ufo.avsc 
$ hadoop jar -/classes/avroufo.jarAvroMRavroinavroout 


4. 检查 输出 路 径 。 


$ hadoopfs -lsavroout 

Found 3 items 

-rw-r--r-- 1 . /user/hadoop/avroout/ SUCCESS 

drwxr-xr-x - hadoopsupergroup 0 .. /user/hadoop/avroout/ logs 


-rw-r--r-- 1 /user/hadoop/avroout/part -00000.avro 


5. 把 输出 文件 拷贝 到 本 地 文件 系统 。 


$ hadoopfs -get /user/hadoop/avroout/part-00000.avroresult.avro 


原理 分 析 


我 们 创建 了 Job 类 并 检查 其 各 个 组 件 。 实 际 上 ，mapper 和 reducer 类 的 
逻辑 很 简单 : mapper 类 只 是 从 shape 字 段 提 取 相 应 值 并 输出 ， 同 时 输出 值 
1; 然后 ，reducer 统 计 每 个 UFO 形 状 出 现 的 总 次 数 。 我 们 关注 的 是 ， 为 
Mapper 和 Reducer 定义 的 输入 输出 类 型 ， 以 及 作业 的 配置 方式 。 


Mapper 类 的 输入 类 型 为 GenericRecord ， 输 出 类 型 为 Pair 。 相 应 地 ， 
Reducer 类 的 输入 类 型 为 Pair ， 输 出 类 型 为 GenericRecord e 


传 给 Mapper 类 的 GenericRecord 类 对 datum (输入 文件 中 的 UFO 目 击 事 
件 记录 ) 进行 了 封装 。 这 就 是 Mapper 类 能 够 通过 Shape 字段 名 获取 对 应 值 
的 原因 。 


回忆 一 下 ， 创 建 GenericRecords 时 ， 可 以 明确 地 或 隐 含 地 指定 数据 模 
式 。 这 两 种 情况 下 ， 都 可 以 将 数据 模式 编码 在 数据 文件 中 。 对 于 Reducer 
类 用 到 的 GenericRecords 和 输出， 我们 通过 其 他 方式 为 其 创建 了 一 个 模 
e 


在 上 述 代 码 中 ， 我 们 创建 了 UFORecord 类 ， 并 在 其 运行 时 使 用 Avro 反射 动 
态 生 成 模式 。 之 后 ， 我 们 可 以 使 用 该 模式 创建 GenericRecord 类 ， 该 类 
专门 用 于 封装 那 种 特定 的 数据 类 型 e 


我 们 使 用 Avro Pair 类 型 在 Mapper 和 Reducer 之 间 存 储 键 值 对 。 这 样 ， 
Mapper 和 Reducer 类 实现 的 逻辑 与 第 2 章 中 的 WordCount 程 序 的 逻辑 完全 
相同 : Mapper 类 输出 每 个 形状 的 出 现 次 数 ，Reducer 类 累加 每 个 形状 的 
出 现 次 数 作 为 最 终 输 出 。 


除 Mapper 和 Reducer 类 的 输入 输出 外 ， 还 要 对 处 理 Avro 数 据 的 作业 进行 
一 些 独特 的 配置 。 


Schema input schema = Schema.parse(getClass(). 


getResourceAsStream("ufo.avsc")) ; 

AvroJob.setInputSchema(conf, input schema); 
AvroJob.setMapOutputSchema(conf, Pair.getPairSchema(Schema. 
create(Schema.Type.STRING), Schema.create(Schema.Type.LONG))); 


AvroJob.setOutputSchema(conf, OUTPUT SCHEMA); 
AvroJob.setMapperClass(conf, AvroRecordMapper.class); 
AvroJob.setReducerClass(conf, AvroRecordReducer.class); 


这 些 配置 元 素 说 明了 模式 对 Avro 的 重要 性 。 尽 管 不 定义 模式 也 可 完成 数据 
处 理 任 务 ， 我 们 必须 设置 输入 输出 数据 的 模式 类 型 。Avro 会 验证 输入 输出 
数据 是 否 与 指定 的 模式 相 吻 合 ， 这 在 某 种 程度 上 也 保证 了 数据 类 型 安全 。 
对 其 他 配置 元 素 ， 比 如 Mapper 和 Reducer 的 配置 选项 ， 我 们 通过 AvroJob 
类 而 非 通用 Job 类 进行 设置 。 设 置 完成 后 ，MapReduce 框 架 会 根据 这 些 设置 
执行 作业 。 

本 例 也 是 我 们 首次 明确 实现 Tool 接口 。 在 运行 Hadoop 命 令 行 程 序 时 ， 有 一 
系列 参数 〈 比 如 -D ) 对 多 个 子 命令 是 通用 的 。 假 如 作业 类 像 上 站 提 到 的 那 
样 实现 了 Too1 接口 ， 它 会 自动 访问 通过 命令 行 传 入 的 标准 参数 。 这 个 方法 
可 有 效 避 免 不 少 代码 重复 。 


5.17 ”实践 环节 : 使 用 Ruby 检 查 输出 数据 


既然 作业 已 生成 了 输出 数据 ， 我 们 将 使 用 Ruby 检 查 这 些 输 出 数据 。 
1. 将 下 列 代码 保存 为 read .rb 文件 。 


require 'rubygems' 
require 'avro' 


file - File.open('res.avro', 'rb') 
reader = Avro::I0::DatumReader .new( ) 
dr = Avro::DataFile::Reader.new(file, reader) 


dr.each (|record| 
print record["shape"]," ",record["count"], "^n" 


dr.close 


2. 检查 作业 输出 的 结果 文件 。 


$ ruby read.rb 
blur 1 
cylinder 1 
diamond 2 
formation 1 
light 3 

saucer 1 


原理 分 析 


和 以 前 一 样 ， 我 们 不 会 分 析 Ruby 的 Avro API。 示 例 程序 创建 了 一 个 打开 
Avro 数据 文件 的 Ruby 脚 本 ， 循 环 读 取 每 个 datum 并 基于 明确 的 字段 名 输出 结 
果 。 请 注意 ， 该 脚本 没有 访问 数据 文件 的 模式 ， 数 据 文件 头 部 提供 的 信息 
足以 满足 Ruby 脚 本 获取 各 个 字段 的 需要 。 


5.18 ”实践 环节 : 使 用 Java 检 查 输出 数据 


dd 证 明 可 使 用 多 种 语言 访问 Avro 数据 ， 我 们 将 使 用 Java 语 言 显示 作业 输 


1. 将 下 列 代码 保存 为 OutputRead . java 文件 。 


import java.io.File; 

import java.io.IOException; 

import org.apache.avro.file.DataFileReader; 

import org.apache.avro.generic.GenericData; 

import org.apache.avro. generic.GenericDatumReader; 
import org.apache.avro.generic.GenericRecord; 
import org.apache.avro.io.DatumReader; 


public class OutputRead 
t 


public static void main(String[] args) throws IOException 


t 


String filename = args[0] ; 


File file-new File(filename) ; 
DatumReader reader- new 
GenericDatumReader(); 
DataFileReaderdataFileReader-new 
DataFileReader(file,reader); 


while (dataFileReader.hasNext()) 


GenericRecord result-zdataFileReader.next(); 
String output = String.format("96s 96d", 

result.get("shape"), result.get("count")) ; 

System.out.println(output) ; 


J 
} 
} 


2. 编译 并 运行 程序 。 


$ javacOutputResult.java 

$ java OutputResultresult.avro 
blur 1 

cylinder 1 

diamond 2 

formation 1 

light 3 

saucer 1 


原理 分 析 


我 们 加 入 该 示例 的 目的 是 说 明 可 使 用 多 种 语言 读 取 Avro 数 据 。 上 述 代码 与 
之 前 讲 到 的 InputRead 类 非常 相似 ， 唯 一 的 区 别 在 于 ， 字 段 名 用 于 展示 从 
数据 文件 读 取 的 每 个 datum 。 


一 展 身手 : Avro 对 图 的 支持 


前 面 曾 提 到 过 ， 我 们 努力 简化 6raphPath 类 中 图 的 表示 方法 。 但 扁平 的 文 
本 行 与 图 对 和 象 之 间 存 在 映射 关系 ， 维 护 它们 之 间 的 转换 需要 一 定 的 开销 。 


由 于 Avro 支持 复杂 类 型 的 蔡 套 ， 它 天 生 就 支持 以 更 接近 运行 时 对 象 的 方式 
表示 节点 。 修 改 GraphPath 类 作业 ， 从 表示 节点 的 datum 组 成 的 Avro 数据 
文件 中 读 写 图 。 读 者 可 以 使 用 下 面 的 示例 模式 ， 但 还 可 以 对 其 进行 改进 。 


( "type": "record", 
"name": "Graph representation", 
"fields" : [ 
("name": "node id", "type": "int"), 
("name": "neighbors", "type": "array", "items:" int" }, 
("name": "distance", "type": "int"), 
[("name": "status", "type": "enum" 


, 
"symbols": ["PENDING", "CURRENT", "DONE" 


继续 研究 Avro 


本 章 的 案例 研究 仅 提 到 了 Avro 的 部 分 特性 。 我 们 重点 介绍 了 Avro 作为 静态 
数据 表示 方法 的 价值 。 它 还 可 以 用 在 RPC (remote procedure call， 远 程 过 程 
调用 ) 框架 中 ，Hadoop 2.0 可 以 选择 它 作 为 默认 的 RPC 格 式 。 我 们 没有 使 用 
Avro 的 代码 生成 工具 ， 它 可 以 产生 特定 领域 的 API。 我 们 也 没有 讨论 Avro 对 
模式 演变 的 支持 ， 比 如 ， 它 可 以 在 新 记录 中 加 入 新 字段 而 不 会 影响 老 datum 
或 破坏 原 有 客户 。 这 种 技术 在 未 来 应 该 会 得 到 更 广泛 的 应 用 。 


5.19 小结 


本 章 通 过 3 个 案例 研究 ， 重 点 介绍 了 Hadoop 的 一 些 高 级 特性 及 其 广泛 的 生态 
系统 。 我 们 特别 讨论 了 不 同类 型 联结 的 本 质问 题 以 及 它们 在 Hadoop 的 哪个 
阶段 出 现 ， 如 何 相 对 简单 却 又 高 效 地 实现 reduce 端 联结 ， 以 及 如 何 把 数据 送 
进 Distributed Cache 避 免 map 端 的 完整 联结 。 

接着 ， 我 们 学 习 了 如 何 实现 完整 的 map 端 联结 ， 但 它 需 要 对 输入 数据 进行 大 
量 处 理 。 如 果 经 常 需要 进行 联结 操作 ， 应 当 研 究 其 他 工具 ， 比 如 Hive 和 
Pig ? 还 介绍 了 如 何 考虑 像 图 这 样 的 复杂 类 型 以 及 在 MapReduce 中 用 怎样 的 
方法 表示 图 。 

我 们 还 学 习 了 将 图 算法 分 成 多 阶段 MapReduce 作 业 的 技术 ， 语 言 无 关 的 数据 
类 型 的 重要 性 ， 如 何 使 用 多 种 语言 操作 Avro 数据 ， 以 及 如 何 将 Avro 扩展 到 
MapReduce API 〈 它 允许 使 用 结构 类 型 作为 MapReduce 作 业 的 输入 输出 ) 。 


现在 ， 我 们 对 Hadoop MapReduce 编 程 的 介绍 就 结束 了 。 第 6 章 和 第 7 章 将 讨 
论 如 何 管理 Hadoop 集 群 以 及 如 何 扩展 其 规模 。 


第 6 章 ”故障 处 理 


的 一 个 重要 特性 是 故障 恢复 能 力 ， 本 章 将 重点 学 习 Hadoop 的 容错 
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本 章 包括 以 下 内 容 : 


。 Hadoop 如 何 处 理 DataNode 和 TaskTracker 的 故障 ; 


。 Hadoop 如 何 处 理 NameNode 和 JobTracker 的 故障 ; 
。 硬件 故障 对 Hadoop 的 影响 ; 


。 如 何 处 理由 软件 缺陷 引发 的 任务 故障 ; 
。 错误 数据 如 何 引 发 任务 故障 以 及 应 对 方法 。 


同时 ， 我 们 将 更 深入 地 理解 Hadoop 的 各 个 部 件 是 如 何 协同 工作 的 ， 并 通过 
实践 发 现 一 些 好 的 做 法 。 


6.1 ”故障 


在 许多 技术 领域 中 ， 很 少见 到 技术 文档 会 用 大 量 篇 幅 来 介绍 故障 处 理 方 
法 。 通 常 ， 人 们 认为 只 有 技术 专家 才 会 对 故障 处 理 技术 感 兴 趣 。 在 Hadoop 
中 ， 故 障 处 理 的 位 置 更 靠 前 而 且 是 一 个 核心 问题 。Hadoop 架 构 及 设计 的 前 
担 ， 残 是 作业 执行 过 程 中 会 经 常 发 生 故障 ， 并 且 故 障 在 所 难免 。 


6.1.1 拥抱 故障 


近年 来 ， 与 传统 的 害怕 发 生 故 障 的 心态 不 同 ， 出 现 了 一 种 被 称 为 “拥抱 故 
障 ” 的 全 新 理念 。 之 前 人 们 寄 布 望 于 不 发 生 故 障 ， 现 在 则 是 接受 故障 是 无 法 
避免 的 事实 ， 并 知道 故障 发 生 时 系统 和 流程 应 如 何 应 对 。 


6.1.2 ”至 少 不 怕 出 现 故 障 


这 是 一 种 理念 上 的 延伸 ， 因 此 ， 本 章 目 的 在 于 让 读者 明白 如 何 应 对 Hadoop 
系统 中 的 各 类 改 障 ， 不 至 于 在 发 生 政 障 时 手足 无 措 。 我 们 将 通过 攻 死 正在 
运行 的 群集 中 的 进程 ， 故 意 造 成 软件 失败 ， 向 作业 推送 错误 数据 等 多 种 方 
式 尽 可 能 制造 破坏 。 


6.1.3 ”严禁 模仿 


由 于 测试 实例 被 滥用 ， 业 务 系统 已 对 其 进行 了 防范 ， 因 此 并 不 会 对 
"m 完 造 成 破坏 。 但 是 ， 我 们 仍 不 主张 对 运行 中 的 Hadoop 集 群 实施 本 章 
给 出 的 破坏 实例 ， 尽 管 除了 一 两 个 非常 特殊 的 案例 ， 其 他 的 都 没有 危险。 
我 们 的 目标 是 了 解 各 类 故障 的 | 影响 ， 以 便 关 键 业务 系统 发 生 故 障 时 ， 清 楚 
是 一 个 问题 - 幸运 的 是 ， Hadoop 可 以 为 我 们 处 理 大 部 分 故 
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6.1.4 ”故障 类 型 
我 们 通常 将 故障 划分 为 以 下 5 类 。 


闻 点 故障 ， 也 就 是 DataNode 或 TaskTracker 进 程 的 故障 。 

集群 主 节 点 的 故障 ， 也 束 是 NameNode 或 JobTracker 进 程 的 故障 。 
硬件 故障 ， 包 括 主机 前 溃 、 硬 盘 故 障 等 。 

MapReduce 作 业 中 由 软件 错误 引发 的 个 别 任务 故障 。 

MapReduce 作 业 中 由 数据 问题 引发 的 个 别 任务 故障 。 

我 们 将 会 在 下 面 各 市 中 依次 讲解 各 种 情况 。 

6.15 ”Hadoop 节 点 故障 

我 们 将 探讨 的 第 一 类 故障 是 ， 个 别 DataNode 或 TaskTrackerj 井 程 意外 终止 引 
发 的 故障 。Hadoop 声 称 通 过 解决 硬件 故障 保证 系统 可 用 性 ， 我 们 认为 有 理 
由 相信 这 个 说 法 。 确 实 ， 随 着 集群 规模 增长 到 成 百 上 于 人 台 主 机 ， 个 别 志 点 
发 生 故 障 的 可 能 性 相当 普遍 。 

在 杀 死 进程 之 前 ， 我 们 将 介绍 一 球 新 工具 ， 并 正确 设置 群集 。 


1. dfsadmin 命令 


dfsadmin 命令 行 工具 可 以 代替 HDFS 网 页 用 户 接口 ， 查 看 集群 的 工作 状 
态 * 其 用 法 如 下 : 


$ Hadoop dfsadmin 


上 述 命 令 会 列 出 dfsadmin 命令 的 多 个 选项 。 为 了 查看 集群 状态 ， 我 们 使 
用 -report 选项 。 该 命令 给 出 了 集群 整体 状态 的 概述 ， 包 括 额 定 容 量 、 市 
扩 数 、 文 件数 和 每 个 市 点 的 具体 配置 细 证 。 


2. 集群 设置 、 测 试 文件 和 数据 块 大 小 
后 续 实 践 需要 一 个 全 分 布 式 的 集群 ， 其 安装 步骤 参见 本 书 前 述 内 容 。 该 集 


群 中 使 用 1 台 主 机 作为 JobTracker 和 NameNode， 其 他 4 台 主 机 用 于 运行 
DataNode 和 TaskTrackerj 井 程 。 


提示 :， 请 注意 ， 无 需 为 每 个 节点 配套 物理 硬件 ， 我 们 使 用 虚拟 机 组 建 
Hadoop 集 群 。 


正常 情况 下 ，Hadoop 集 群 的 数据 块 大 小 通常 设 为 64 MB。 但 该 配置 并 不 适 
全 用 于 测试 ， 因 为 要 将 文件 切 分 万 多 从 分布 在 多 点 集群 上 ， 需 要 符 别 大 的 
行 。 


这 就 需要 我 们 在 配置 时 减 小 数据 块 大 小 。 既 然 这 样 ， 我 们 将 数据 块 大 小 配 
置 为 4MB。 请 对 Hadoop conf 目录 下 的 hdfs-site.xml 进行 如 下 修改 。 


<property> 
«name»dfs.block.size«/name» 
«value»4194304«/value» 
;«/property» 


«property» 
«name»dfs.namenode.logging.level«/name- 
«value»all«/value» 

«/property» 


第 一 个 属性 修改 的 是 数据 块 大 小 ， 第 二 个 属性 提升 了 NameNode 的 日 志 级 
别 ， 因 此 一 些 对 数据 块 的 操作 也 会 出 现在 日 志文 件 中 。 


提示 :， 对 本 次 测试 而 言 ， 所 有 这 些 设 置 都 恰到好处 ; 但 它们 很 少 用 在 产 
品 集群 的 配置 中 。 尽 管 在 调查 非常 难 的 问题 时 ， 可 能 需要 调 高 NameNode 
的 日 志 级 别 ， 但 是 绝对 不 可 能 将 数据 块 设 为 4 MB 这 么 小 。 虽 然 Hadoop 可 
处 理 较 小 的 数据 块 ， 但 是 小 数据 块 会 影响 Hadoop 的 运行 效率 。 
我 们 还 需要 一 个 大 小 适中 的 测试 文件 ， 它 需要 被 切 分 为 多 个 4 MB 大 小 的 数 
据 块 。 实 际 上 ， 我 们 不 会 用 到 该 文件 的 内 容 ， 所 以 文件 类 型 在 这 里 并 不 重 
要 。 但 是 ， 为 了 给 后 几 节 提供 便利 ， 你 应 该 把 手头 上 最 大 的 文件 复制 到 
HDFS。 此 处 ， 我 们 使 用 了 一 个 CD ISO 映像 文件 。 


$ Hadoop fs -put cd.iso file1.data 


3. Elastic MapReduce 的 容错 机 制 


为 了 更 明确 地 介绍 故障 细 方 ， 本 书 使 用 本 地 Hadoop 集 群 作为 例子 。EMR 的 
容错 机 制 与 本 地 集群 完全 相同 ， 因 此 这 里 讲 到 的 故障 情景 既 适 用 于 本 地 
Hadoop 集 群 也 适用 于 EMR 托 管 的 集群 。 


6.2 ”实践 环节 : 杀 死 DataNode 进 程 


首先 ， 杀 掉 一 个 DataNode 进 程 。 回 忆 一 下 ，HDFS 集 群 的 每 台 主 机 都 运行 着 
一 个 DataNode 进 程 ， 它 负责 管理 HDFS 文 件 系统 的 数据 块 。 默 认 情 况 下 ， 
Hadoop 中 数据 决 的 复制 因子 为 3. 因此 ， 我 们 希望 单个 DataNode 的 故障 不 会 
直接 影响 到 Hadoop 的 可 用 性 o 当然 ， 单 个 DataNode 的 故障 会 导致 某 些 数据 
2 DENS PT ] 限 值 。 执 行 下 列 步 又 杀 死 DataNode 进 


1. 首先 ， 查看 集群 的 原始 状态 并 检查 所 有 部 件 是 否 正常 工作 。 使 用 
dfsadmin 命令 实现 这 个 目的 。 


$ Hadoop dfsadmin -report 

Configured Capacity: 81376493568 (75.79 GB) 
Present Capacity: 61117323920 (56.92 GB) 
DFS Remaining: 59576766464 (55.49 GB) 

DFS Used: 1540557456 (1.43 GB) 

DFS Used%: 2.5296 

Under replicated blocks: 0 

Blocks with corrupt replicas: 0 

Missing blocks: 0 


Datanodes available: 4 (4 total, © dead) 


Name: 10.0.0.102:50010 

Decommission Status : Normal 

Configured Capacity: 20344123392 (18.95 GB) 
DFS Used: 403606906 (384.91 MB) 

Non DFS Used: 5063119494 (4.72 GB) 

DFS Remaining: 14877396992(13.86 GB) 

DFS Used%: 1.9896 

DFS Remaining%: 73.1396 

Last contact: Sun Dec 04 15:16:27 PST 2011 


现在 登录 到 其 中 一 个 和 节点， 使 用 jps 命令 查看 DataNode 进 程 的 进程 
ID: 


$ jps 

2085 TaskTracker 
2109 Jps 

1928 DataNode 


2. 使 用 DataNode 的 process ID (PID) 杀 死 进程 。 


$ kill -9 1928 


3. 检查 DataNode 进 程 是 否 仍 在 运行 。 


$ jps 


2085 TaskTracker 


4. 再 次 使 用 dfsadmin 命令 查看 集群 状态 。 


$ Hadoop dfsadmin -report 

Configured Capacity: 81376493568 (75.79 GB) 
Present Capacity: 61117323920 (56.92 GB) 
DFS Remaining: 59576766464 (55.49 GB) 

DFS Used: 1540557456 (1.43 GB) 

DFS Used%: 2.5296 

Under replicated blocks: 0 

Blocks with corrupt replicas: 0 

Missing blocks: 0 


Datanodes available: 4 (4 total, © dead) 


5. 要 重点 关注 包含 每 个 节点 的 数据 块 数量 、 活 路 节点 数 和 最 后 通信 时 间 
的 行 。 死 亡 节点 的 最 后 通信 时 间距 现在 差不多 10 分 钟 的 时 候 ， 经 常 使 
用 $ Hadoop dfsadmin -report 查看 集群 状态 ， 直 到 数据 块 的 数 
量 和 活跃 节点 数 发 生变 化 。 


$ Hadoop dfsadmin -report 

Configured Capacity: 61032370176 (56.84 GB) 
Present Capacity: 46030327050 (42.87 GB) 
DFS Remaining: 44520288256 (41.46 GB) 

DFS Used: 1510038794 (1.41 GB) 

DFS Used%: 3.2896 

Under replicated blocks: 12 

Blocks with corrupt replicas: 0 

Missing blocks: 0 


Datanodes available: 3 (4 total, 1 dead) 


| 


c. 重复 上 述 过 程 ， 直 至 


C— 


再 次 输出 “Under replicated blocks: 0"? 


$ Hadoop dfsadmin -report 


Under replicated blocks: 0 
Blocks with corrupt replicas: 0 
Missing blocks: 0 


Datanodes available: 3 (4 total, 1 dead) 


原理 分 析 


从 较 高 的 视角 来 看 ， 似 乎 并 无 难 解 之 处 。Hadoop 确 认 集 群 中 少 了 一 个 市 点 
并 开展 工作 解决 该 问题 。 但 是 ， 为 了 解决 该 问题 ，Hadoop 做 了 大 量 工作 。 


当 我 们 杀 死 Datanode 进 程 时 ， 该 主机 上 的 进程 已 经 不 再 提供 服务 或 接收 数据 
块 进行 读 / 写 操作 。 但 是 ， 当 时 我 们 并 没有 访问 文件 系统 ， 那 么 NameNode 进 
程 是 怎么 知道 某 个 特定 的 DataNode 已 经 无 法 提供 服务 了 呢 ? 


NameNode 和 DataNode 之 间 的 通信 


答案 是 NameNode 和 Datanode 进 程 之 间 保 持 着 频 党 通信 。 虽 然 我 们 曾经 提 到 
过 一 两 次 它们 之 间 的 通信 ， 却 从 来 没有 详细 地 解释 。 这 个 过 程 由 DataNode 
发 出 的 一 系列 固定 心跳 消息 完成 ， 这 些 消息 癌 NameNode 报 告 其 当前 状态 及 
保存 的 数据 块 。 作 为 回应 ，NameNode 回 DataNode 发 出 指令 ， 如 通知 

DataNode 狐 建 一 个 文件 或 命令 它 从 另 一 局 点 获取 数据 块 。 


当 NameNode 进 程 启动 起 来 并 开始 接收 DataNode 的 状态 信息 时 ， 整 个 通信 过 
程 就 已 经 开始 。 回 想 一 下 ， 每 个 DataNode 知 道 其 NameNode 的 位 置 ， 并 不 断 
ja] EAIRT e 这 些 消 息 列 出 了 各 个 DataNode 保 存 的 数据 块 。 基 于 这 
些 信息 ，NameNode 能 够 在 数据 块 和 文件 、 路 径 之 间 建 立 完整 映射 ， 
NomeNode 就 会 知道 文件 由 哪些 数据 块 组 成 以 及 这 些 数据 块 存 放 在 哪些 和 


NameNode 进 程 对 每 个 DataNode 最 后 一 次 发 送 心跳 信息 的 时 间 进 行 监测 ， 一 
旦 该 时 间 超 过 门限 值 之 后 ，NameNode 束 会 认定 某 个 DataNode 无 法 继续 使 
用 ， 并 将 其 标记 为 dead ° 


提示 :DataNode 被 认定 为 dead 的 准确 门限 值 并 不 是 HDFS 的 一 个 可 配置 属 
性 。 相 反 ， 它 是 通过 其 他 几 个 属性 计算 得 出 的 ， 比 如 心跳 间隔 属性 在 该 
值 的 计算 中 起 决定 作用 。 稍 后 我 们 会 看 到 ，MapReduce 的 对 应 属性 值 的 确 
定 稍微 简单 一 些 ，TaskTracker 的 超时 时 间 由 一 个 配置 属性 所 控制 。 


一 旦 某 个 DataNode 被 标记 为 死亡 和 点 ，NameNode 进 程 会 确定 哪些 数据 块 存 
储 在 该 丰 点 上 上， 这些 数据 块 的 副本 数 已 跌 破 其 复制 因 了 于 。 在 默认 情况 下 ， 
被 杀 死 节点 上 存储 的 数据 块 是 3 个 副本 中 的 一 个 ， 所 以 该 节点 存储 的 数据 块 
在 集群 中 只 剩 有 2 个 副本 。 


在 前 面 例 子 中 ， 我 们 发 现 有 12 个 数据 块 的 副本 数量 小 于 其 复制 因子 ， 也 下 
是 说 ， 这 加 数据 块 在 整个 集群 中 的 副本 数量 无 法 达到 其 目标 数量 。 当 
NameNode 进 程 明 确 了 副本 数 过 低 的 数据 块 后 ， 它 分 配 其 他 DataNode 从 现 有 
副本 驻 留 主机 复制 这 些 数据 块 。 在 这 种 BF, E E E E EER 
a 在 活跃 集群 中 ， 一 个 节点 的 故障 会 导致 一 段 时 间 的 高 网 络 流 

， 因 为 NameNode 会 安排 其 他 蔬 点 重 狐 复制 死亡 和 点 存储 的 数据 块 。 


需要 注意 的 是 ， 如 果 出 现 故障 的 节点 重新 恢复 正常 运行 ， 该 节点 存储 的 数 

据 块 在 下 集群 中 的 副本 数量 可 能 超过 所 需 数量 。 在 这 种 情况 下 ，NameNode 进 

程 会 发 出 指令 ， 要 求 删除 多 余 副 本 。 系 统 随机 选择 要 删除 的 副本 ， 因 此 ， 

"Tie e uo ERE CT E RAR 留 了 部 分 数据 块 ， 却 删 掉 了 其 他 数据 块 
B 


一 展 身手 : 深入 研究 NameNode 的 日 志 


我 们 已 配置 NameNode 进 程 记录 其 所 有 活动 。 浏 览 这 些 非 常 详细 的 日 志 ， 并 
试 着 从 中 找 出 NameNode| 可 DataNode 发 出 的 复制 要 求 。 


最 终 输出 显示 了 将 副本 数量 不 足 的 数据 块 复制 到 活跃 市 点 后 的 集群 状态 。 
w a 但 是 所 有 的 数据 块 都 达到 了 其 复制 因子 的 要 


技巧 : 使 用 start-all.sh 脚本 可 快速 重启 所 有 主机 中 的 死亡 节点 。 该 
脚本 在 启动 所 有 部 件 之 前 ， 会 智能 检测 正在 运行 的 服务 ， 这 就 意味 着 ， 
它 会 重启 死亡 节点 却 不 会 对 活跃 市 点 产生 影响 。 


6.3 ”实践 环节 : 复制 因子 的 作用 


本 将 重复 杀 死 进程 的 步骤 ， 但 这 次 ， 要 在 由 4 个 节点 组 成 的 集群 中 杀 死 2 
个 DataNode。 我 们 仅 会 简略 描述 这 个 过 程 ， 因 为 它 与 上 一 个 实践 环节 的 步 


又 非常 相似 。 
1. 重启 死亡 节点 并 监测 集群 状态 ， 直 到 所 有 克 点 都 被 标记 为 活跃 节点 。 
选择 其 中 2 个 DataNode， 使 用 其 进程 ID 杀 掉 相应 进程 。 


.和 上 一 个 实践 环 志 的 操作 类 似 ， 等 候 大 约 10 分 钟 之 后 ， 通 过 dfsadmjin 
俞 令 查 有 集群 惟 态 ， 特别 要 关注 副本 数量 低 于 复制 因子 的 数据 块 的 数 


HB? 


. 等 到 集群 状态 稳定 之 后 ， 输 出 以 下 内 容 。 


UJ 


I; 


Configured Capacity: 61032370176 (56.84 GB) 
Present Capacity: 45842373555 (42.69 GB) 
DFS Remaining: 44294680576 (41.25 GB) 

DFS Used: 1547692979 (1.44 GB) 

DFS Used%: 3.3896 

Under replicated blocks: 125 

Blocks with corrupt replicas: 0 

Missing blocks: 0 


Datanodes available: 2 (4 total, 2 dead) 


原理 分 析 


这 个 过 程 与 上 一 个 “实践 环 市 * 的 过 程 相 同 。 区 别 在 于 ， 由 两 个 DataNode 发 
生 故 障 引 起 的 副本 数量 小 于 复制 因子 的 数据 块 明显 增多 ， 多 个 数据 块 的 副 
本 数量 降 为 1。 因 此 ， 读 者 会 看 到 ， 由 于 多 个 节点 故障 造成 <Under replicated 
blocks” 的 值 明 显 增 大 ， 之 后 随 着 重新 复制 过 程 的 j 进行 , “Under replicated 
blocks” 的 值 逐 步 下 降 。 这 些 活动 也 可 以 从 NameNode 忆 点 的 日 志 看 出 。 


需要 注意 的 是 ， 虽 然 Hadoop 可 以 通过 重新 复制 策略 将 只 剩 一 个 副本 的 数据 
块 复制 为 两 个 本， 但 这 些 数 据 块 的 数量 仍 处 于 under-replicated 状 态 。 
区 did 两 个 活跃 方 点 ， 任 何 数 据 块 的 副本 数量 都 无 法 达到 默认 的 三 
BILE) ELE ° 


为 了 节省 版 面 ， 我 们 截断 了 dfsadmin 命令 的 输出 。 尤 其 是 ， 一 直 以 来 我 
们 都 忽略 了 每 个 节点 的 状态 信息 。 然 而 ， 让 我 们 看 看 经 过 上 述 操作 后 的 集 
群 中 第 一 个 节点 的 状态 。 在 未 杀 掉 任何 DataNode 之 前 ， 其 状态 输出 如 下 所 
ZR œ 


Name: 10.0.0.101:50010 

Decommission Status : Normal 

Configured Capacity: 20344123392 (18.95 GB) 
DFS Used: 399379827 (380.88 MB) 

Non DFS Used: 5064258189 (4.72 GB) 


DFS Remaining: 14880485376(13.86 GB) 

DFS Used%: 1.9696 

DFS Remaining%: 73.1496 

Last contact: Sun Dec 04 15:16:27 PST 2011 


在 杀 挥 一 个 DataNode 节 点 ， 所 有 数据 块 都 按 需 重新 复制 之 后 ， 其 状态 输出 
如 下 所 示 。 


Name: 10.0.0.101:50010 

Decommission Status : Normal 

Configured Capacity: 20344123392 (18.95 GB) 
DFS Used: 515236022 (491.37 MB) 

Non DFS Used: 5016289098 (4.67 GB) 

DFS Remaining: 14812598272(13.8 GB) 

DFS Used%: 2.53% 

DFS Remaining%: 72.81% 

Last contact: Sun Dec 04 15:31:22 PST 2011 


需要 注意 的 是 ， PERA UDE AAE iea ls 
群 出 现 了 一 个 死亡 节点 ， 集 群 中 的 其 他 节点 需要 增加 一 些 额外 的 数据 块 副 
本 ， 这 了 吏 造 成 了 每 个 节点 上 已 用 存储 空间 的 增加 。 


在 集群 中 的 男 外 两 个 DataNode 被 东 死 之 后 ， 第 一 个 节点 的 状态 如 下 所 示 。 


Name: 10.0.0.101:50010 

Decommission Status : Normal 

Configured Capacity: 20344123392 (18.95 GB) 
DFS Used: 514289664 (490.46 MB) 

Non DFS Used: 5063868416 (4.72 GB) 


DFS Remaining: 14765965312(13.75 GB) 

DFS Used%: 2.5396 

DFS Remaining%: 72.58% 

Last contact: Sun Dec 04 15:43:47 PST 2011 


集群 中 的 死亡 下 点 增加 到 了 2 个 ， 似 乎 剩余 的 活跃 下 点 应 该 消耗 更 多 的 本 地 
pue 空间 ， 但 本 例 中 的 情况 并 非 如 此 ， 其 原因 仍 与 复制 因子 有 着 密切 天 


如 采集 群 由 4 个 下 点 组 成 ， 其 复制 因 于 为 3， 那 么 其 中 3 个 活跃 节点 会 分 别 存 
储 每 个 数据 块 的 3 个 副本 。 假 如 死 挥 1 个 节点 ， 存 储 于 其 余 3 个 市 已 的 数据 全 
不 受 影响 ， 而 存储 在 该 节点 的 数据 块 需要 新 建 一 个 副本 。 但 是 ， 由 于 只 有 3 
个 活跃 节点 ， 每 个 节点 需要 为 每 个 数据 块 保存 1 个 副本 。 假 如 第 2 个 节点 发 
生 故 障 ， 会 导致 所 有 数据 块 的 副本 数量 都 小 于 复制 因 于 ， 同 时 Hadoop 找 不 
到 地 方 存放 额外 副本 。 因为 剩余 的 存活 下 点 已 经 为 每 个 数据 块 傈 存 了 1 个 副 
本 ， 它 们 的 空间 使 用 率 不 会 继续 增加 。 


6.4 ”实践 环节 : 故意 造成 数据 块 丢失 


很 明显 ， 下 一 步 我 们 将 快速 杀 掉 3 个 DataNode。 
技巧 : 之 前 我 们 曾 提 到 ， 有 些 操作 不 能 在 产品 集群 上 进行 ， 这 个 例子 就 
是 这 种 情况 。 尽 管 这 些 步骤 如 果 操 作 得 当 ， 不 会 引起 数据 丢失 ， 但 却 会 
导致 现 有 数据 在 某 段 时 间 内 无 法 使 用 。 

使 用 以 下 步骤 连续 杀 死 3 个 DataNode 。 


1. EHA P7 ig o SUR PUB TS ° 


$ start-all.sh 


2. 等 待 ， 直 到 Hadoop 的 dfsadmin -report 命令 显示 有 4 个 活跃 节点 。 
3. 把 测试 文件 的 新 副本 file1.new 放 到 HDFS 上 。 


$ Hadoop fs -put file1.data file1.new 


4. 登录 到 集群 中 的 3 台 主 机 并 杀 死 每 台 主 机 上 的 DataNode 进 程 。 


等 候 10 分 钟 ， 之 后 通过 dfsadmin 命令 监视 集群 状态 ， 直 到 集群 状态 
TRA- 


Under replicated blocks: 123 
Blocks with corrupt replicas: 0 
Missing blocks: 33 


10. 


Datanodes available: 1 (4 total, 3 dead) 


. 尝试 从 HDFS 获 取 测 试 文件 fileli.new 。 


$ hadoop fs -get file1.new file1.new 

11/12/04 16:18:05 INFO hdfs.DFSClient: No node available for 

block: blk_1691554429626293399_1003 file=/user/hadoop/file1.new 
11/12/04 16:18:05 INFO hdfs.DFSClient: Could not obtain block 
blk_1691554429626293399_1003 from any node: java.io.IOException: 
No live nodes contain current block 


get: Could not obtain block: blk 1691554429626293399 1003 file-/ 
user/hadoop/file1.new 


.使 用 start-all.sh 脚本 重启 所 有 死亡 节点 。 


$ start-all.sh 


.不 断 监 视 数据 块 状态 。 


$ Hadoop dfsadmin -report | grep -i blocks 
Under replicated blockss: 69 

Blocks with corrupt replicas: 0 

Missing blocks: 35 

$ Hadoop dfsadmin -report | grep -i blocks 
Under replicated blockss: 0 

Blocks with corrupt replicas: 0 

Missing blocks: 30 


. 等 到 输出 Missing blocks: 0, ， 然 后 将 测试 文件 file1.new 拷贝 


到 本 地 文件 系统 。 


$ Hadoop fs -get filei.new filei.new 


对 获取 的 文件 和 原始 文件 进行 MD5 校 验 。 


$ md5sum filei.* 
fif30b26b40f8302150bc2a494c1961d filei.data 
fA1f30b26b40f8302150bc2a494c1961d filei.new 


原理 分 析 


在 重 局 被 杀 死 进程 之 后 ， 我 们 将 测试 文件 揽 贝 到 HDFS。 严 格 意义 上 来 讲 ， 
将 测试 文件 拷贝 到 HDFS 并 不 是 必需 的 ， 我 们 也 可 以 使 用 HDFS 上 的 已 有 文 
人 


之 后 ， 我 们 按照 前 述 步 又 杀 死 3 个 DataNode， 并 等 候 HDFS 的 响应 。 与 前 面 
几 个 例子 不 一 样 的 是 ， 杀 死 这 么 多 市 点 意味 着 某 些 数据 块 的 所 有 副本 都 存 
储 在 被 杀 死 的 节点 上 。 如 我 们 所 见 ， 结 果 正 是 如 此 : 仅 剩 1 个 节点 的 集群 中 
有 100 多 个 数据 块 的 副本 数量 低 于 复制 因子 〈 很 明显 ， 这 些 数据 块 仅 剩 1 个 
副本 ) ， 同 时 丢 了 33 个 数据 块 。 


讨论 数据 块 有 点 抽 象 ， 所 以 我 们 笑 试 获取 测试 文件 。 因 为 我 们 知道 ， 由 于 
缺少 33 个 数据 块 造成 测试 文件 不 完整 ， 丈 像 古 有 33 个 润 。 访 问 测试 文件 以 
失败 告终 ， 因 为 Hadoop 无 法 找到 缺失 的 数据 块 ， 而 这 些 数据 块 在 文件 传送 
过 程 中 是 必需 的 。 


接 下 来 我 们 重新 局 动 所 有 节点 并 再 次 委 试 获取 测试 。 这 一 次 终于 成 功 了 ， 
但 我 们 采取 了 一 个 额外 的 验证 措施 ， 对 获得 的 文件 进行 MD5 校 验 ， 以 确认 
它 与 原始 文件 完全 相同 一 一 结果 确实 如 此 。 


从 本 例 可 以 看 出 ， 虽 然 节 点 故障 可 能 会 导致 数据 无 法 访问 ， 但 节点 恢复 之 
后 ， 这 个 暂时 性 的 数据 缺失 问题 束 不 复 存 在 。 这 后 特别 重要 。 


1. 数据 丢失 的 可 能 性 


不 要 从 本 例 中 轻易 得 出 Hadoop 和 集群 不 会 丢失 数据 这 样 的 结论 。 一 般 来 讲 ， 
很 难 出 现 数据 丢失 这 样 的 情况 ， 但 灾难 往往 喜欢 以 错误 的 方式 突然 出 现 。 


如 上 例 所 示 ， 不 少 于 复制 因子 的 多 个 节点 同时 发 生 故 障 有 可 能 导致 数据 块 
缺失 。 在 由 4 人 台 主 机 组 成 的 示例 集群 中 ，3 个 死亡 节点 导致 数据 块 缺失 的 可 
能 较 高 。 在 由 1000 人 台 主 机 组 成 的 集群 中 ， 这 个 可 能 性 相对 较 低 但 仍然 存 

在 。 随 着 集群 规模 增 大 ， 故 障 率 也 随 之 增 大 ， 狭 小 的 时 间 窗 口内 ，3 个 市 点 


同时 发 生 故 障 的 可 能 性 越 来 越 低 。 因 此 ， 它 带 来 的 影响 也 减 小 了 ， 但 多 个 
市 点 接连 发 生 故 障 总 会 带 来 数据 丢失 的 风险 。 


男 一 个 隐蔽 的 问题 是 反复 故障 或 局 部 故障 。 例 如 ， 整 个 集群 的 不 稳定 电源 
会 导致 节点 反复 关机 和 重启 。 Hadoop 为 了 达成 复制 目标 ， 可 能 会 不 断 要 求 
恢复 运行 的 主机 复制 那些 副本 数量 少 于 复制 因子 的 数据 块 ， 电 源 问 题 导致 
的 突然 关机 又 会 造成 这 些 任务 的 中 途 失 败 。 这 样 一 系列 事件 也 会 提高 潜在 
的 数据 丢失 风险 。 


最 后 ， 不 要 起 了 人 为 因素 。 即 使 将 复制 因子 设置 为 集群 中 的 主机 数量 ， 它 
aa a 
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结论 是 ， 由 系统 故障 造成 的 数据 丢失 的 可 能 性 很 小 ， 但 由 无 法 避免 的 人 工 
操作 造成 的 数据 丢失 的 可 能 性 仍然 存在 。 复 制 数据 并 不 是 一 个 完整 的 备份 
方案 。 用 户 必须 充分 认识 到 待 处理 数据 的 重要 性 以 及 本 下 讨论 的 数据 丢失 
对 我 们 造成 的 影响 。 


提示 :， 实 际 上 ，Hadoop 集 群 中 最 严重 的 数据 丢失 是 由 NameNode 和 文件 
系统 损坏 造成 的 。 我 们 将 在 下 一 章 比较 详细 地 讨论 这 一 话题 。 


2. 数据 块 损坏 


DataNode 发 出 的 状态 报告 中 也 包括 了 已 损坏 数据 块 的 数量 ， 这 一 点 我 们 之 
前 从 未 提 及 。DataNode 将 数据 块 初次 写 入 HDFS 时 ， 同 时 将 一 个 包含 本 数据 
块 密码 校 验 和 的 隐藏 文件 写 入 相同 目录 。 默 认 情 况 下 ，DataNode 为 每 512 字 
市 生 成 一 个 校 验 和 。 


每 当 客 户 端 读 取 数据 块 时 ， 同 时 也 会 读 取 校 验 和 列表 。 客 户 端 会 计算 已 读 
取 数 据 的 校 验 和 ， 并 将 其 与 获取 的 校 验 和 列表 进行 对 比 。 如 果 两 个 校 验 和 
不 一 致 ， 该 DataNode 忆 点 上 的 数据 块 被 标记 为 损坏 数据 ， 客 户 端 会 获取 另 
一 个 副本 。 得 知 数据 块 已 损坏 之 后 ，NameNode 会 调度 该 DataNode 基 于 现 有 
的 未 损坏 副本 生成 一 个 新 的 副本 。 


如 果 你 认为 不 会 发 生 数据 损坏 的 情况 ， 想 一 下 出 现 故 障 的 内 存 、 硬 盘 、 存 
储 控制 右 ， 或 单 台 主机 的 其 他 问题 ， 它 们 都 可 能 在 初次 写 入 数据 块 或 读 取 
数据 块 时 导致 数据 块 损坏 。 这 些 情况 非常 罕见 。 存 储 同一 数据 块 副本 的 所 
有 DataNode 发 生 相 同 数 据 损坏 的 可 能 性 微乎其微 。 但 是 ， 请 记 住 ， 正 如 前 
面 提 到 的 ， 复 制 并 不 是 一 个 完整 的 备份 方案 ， 如 果 用 户 需 要 确保 数据 100%% 
可 用 ， 可 能 需要 考虑 在 集群 之 外 备份 数据 。 


6.5 ”实践 环节 : 杀 死 TaskTracker 进 程 


我 们 已 经 对 HDFS 及 其 DataNode 故 障 进行 了 太 多 的 讨论 ， 现 在 来 看 看 杀 死 某 
些 TaskTracker 进 程 会 对 MapReduce 造 成 什么 损坏 。 


虽然 MapReduce 中 有 一 个 mradmin 命令 与 HDFS 的 dfsadmin 命令 类 似 ， 
但 它 无 法 提供 类 似 HDFS 的 状态 报告 。 因此， 我 们 使 用 MapReduce 的 Web 用 
户 接口 (默认 情况 下 ， 该 接口 位 于 JobTracker 主 机 的 500 70 端 口 ) 监测 
MapReduce 集 群 的 状态 。 


执行 下 列 步 又 。 


1. 通过 start-all. sh 脚本 启动 所 有 部 件 ， 之 后 将 浏览 右 指 加 
MapReduce HAPA IO o MES MEA ° 


C hend Haodoop Map Res s Internet Explorer 

Go- 10.0.0 100 EL "m x|f 

Be ER Yen Fowoses [oos tt T 
. ”| ec un AE Ce Om y am x| + 


cs Favorites | -| raioop pb 20:112161623... | É head Hacoco etaoauc x| | 


head Hadoop Map/Reduce Administration 


Quick Links 
State: RUNNING 
Started: Fri Dec 16 15 23 10 PP 

Version: 0 202 r9 了 

Compiled: Fn Feb 19 03 07:24 UTC 2010 by chnsdo 

Identifier: 2091112161523 


Cluster Summary (Heap Size is 6.69 MB/966.69 MB) 

Maps | Reduces | Total Submissions Nodes | Map Task Capacity Reduce Task Capacity | Avg. Tasks/Node Blacklisted Nodes 
0 0 12 4 8 8 400 Ü 
Scheduling Information 


Queue Name | Scheduling Information 


default NA 


Filter (Jobid, Priority, User, Name) | 
Eyample 'usersmith 3200 will fiker by smith only in the user feld and 3200'in allfields 


2. 启动 一 个 长 期 运行 的 MapReduce 作 业 ， 带 有 较 大 参数 的 计算 圆周 率 的 示 
例 程 序 就 很 合适 。 


$ Hadoop jar Hadoop/Hadoop-examples-1.0.4.jar pi 2500 2500 


3. 登录 到 集群 中 的 一 个 太 点 ， 使 用 jps 命令 确定 TaskTracker 的 进程 ID。 


$ jps 


21822 TaskTracker 
3918 Jps 
3891 DataNode 


4. 使 用 下 列 命 令 杀 死 TaskTracker 进 程 。 


$ kill -9 21822 


5. 确认 TaskTracker 不 再 处 于 运行 状态 。 


$jps 


3918 Jps 
3891 DataNode 


6. 返回 MapReduce 网 页 用 户 接口 ，10 分 钟 后 ， 你 应 该 看 到 节点 数 、 可 用 的 
map/reduce slot 数 量 发 生 了 变化 ， 如 下 图 所 示 。 


fk Ed. Wew Poons Tods tes 
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i Favortos ll raep icb 2011121651823... | e ead Hadoop MapfRæduc x| | 


head Hadoop Map/Reduce Administration 


State: RUNN ING 
5 16:23 


Compiled: Fr eb1 1908 107 44 UTC 2010 by chris 
Identifier: 20111 23 


Cluster Summary (Heap Size is 8.1 MB/966.69 MB) 


Maps Reduces Total Submissions Nodes Ne Task Capacity Reduce Task Capacity Avg.Tasks/Node Blacklisted Nodes 
0 3 3 6 6 400 


Scheduling Information 
Queue Name Scheduling Information 
catal: NA 


nó ast Priority, User, Pen 


vxor. grmh SICCO" will iter by dh only wm the usor fold and FLIN in all folds 


at: 


EE UT PONI E 进度 ， 作 业 应 该 处 于 proceeding 状 态 ， 虽 然 其 
行 缓慢 。 


8. 重启 被 杀 死 的 TaskTracker 进 程 。 


$ start-all.sh 


9. abe TARRO 9 EAS. TARAX RKE S T RRN 


， 如 下 图 所 示 。 
(C head Hadoop Map, Reduce Admanistrabion indows Internet Explorer PEE! 
o w [e hs:/0.0.0.100 EID p: 
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head Hadoop Map/Reduce Administration 


Quick Links 
State: RUNN NG 


Started: Fn De c16 OQ PST 2011 

Version: 0 20 2, rà 7 

Compiled: F Feb 19 08.07 34 UTC 2010 by chrisdo 
Identifier: 201112 51623. 


Cluster Summary (Heap Size is 8.1 MB/966.69 MB) 


Maps Reduces Total Submissions Nodes | Map Task Capacity | Reduce Task Capacity Avg. Tasks/Node | Blacklisted Nodes 
5 ) 13 4 8 8 4.00 o 


Scheduling Information 


Queue Name | Scheduling Information 


datant 


Filter (Jobid, Priority, User, Name) | 
Example. Veer smith 2200 wl fter by Smaly only in fhe user feld and 3200' in all felds 了 
4 | 2j 


O niet Far [Mton s 


原理 分 析 


MapReduce 网 页 接口 提供 了 许多 关于 集群 和 作业 的 信息 。 本 节 我 们 感 兴趣 的 
重要 的 数据 是 Cluster Summary (集群 摘要 信息 ) ， 包 括 Maps、Ruduces (H 
前 正在 执行 的 map 和 reduce 任 务 数 ) 、Total Submissions (已 提交 的 作业 总 
数 ) ^Nodes (2t) 、Map/Reduce Task Capacity (map 和 reduce 任 务 容 
=) ， 还 有 Blacklisted Nodes ( 列 入 黑 名 单 的 节点 数 ) 。 


JobTracker 进 程 和 TaskTracker 进 程 之 间 的 关系 与 NameNode 和 DataNode 之 间 
的 关系 有 较 大 区 别 ， 但 它们 都 使 用 了 类 似 的 心跳 机 制 。 


TaskTrackerj 进 程 频繁 问 JobTracker 发 送 心路 信息 ， 但 与 DataNode 回 
NameNode 报 告 数 据 块 的 状态 信息 不 同 ，TaskTracker 的 心跳 信息 包含 任务 进 
度 及 可 用 空间 。 每 个 节点 都 有 一 个 可 配置 的 map 和 reduce slot (SU ff 


2) ， 这 就 解释 了 为 什么 我 们 在 第 一 个 网 页 用 户 接口 页 面 看 到 集群 由 4 个 市 
点 组 成 ， 却 有 8 个 map 和 reduce slot ° 


当 我 们 杀 死 TaskTrackerj 进 程 时 ， JobTracker 进 程 收 不 3 到 其 心跳 信息 * TERI x 
设置 的 时 间 过 后 ， 节 点 被 认定 为 死亡 节点 ， 集 群 容量 相应 地 减少 ， 这 个 变 
化 反映 在 网 页 用 户 接 口 。 


技巧 用 户 可 通过 修改 mapred-site.xml 文 件 的 
mapred.tasktracker.expiry.interval 属 性 配置 TaskTracker 进 程 的 超时 时 间 值 ， 
该 值 被 用 于 认定 下 点 是 否 死 亡 。 


当 一 个 TaskTracker 进 程 被 标记 为 死亡 节点 时 ，JobTrackerj 进 程 会 认为 正在 执 
行 的 任务 失败 ， 并 将 它们 重新 分 配给 集群 中 的 其 他 节点 。 尺 管 某 个 节点 被 
杀 死 了 ， 但 整个 作业 却 最 终 执行 成 功 ， 这 也 从 侧面 验证 了 上 述 内 容 。 


重新 启 动 TaskTracker 进 程 后 ， 它 会 给 JobTracker 发 送 心跳 消息 ，JobTracker 会 
把 它 标 记 为 存活 节点 并 再 次 将 其 纳入 MapReduce 集 群 。 我 们 在 最 后 那 张 截图 
HEJ, RT 点 数 和 任务 slot 容 量 重新 恢复 到 了 其 原始 值 ， 这 表明 重启 后 
的 TaskTracker 重 新 成 了 MapReduce 集 群 的 一 部 分 。 


1. DataNode 故 障 和 TaskTracker 故 障 对 比 


点 的 操作 ， 因 为 任务 执行 
运行 机 制 表明 ， a 是 很 重要 。 因 为 
TaskTracker 进 程 a obTracker 探 制 和 协调 ， 个 别 TaskTracker 发 生 故 障 只 会 减 
少 集群 可 并 发 运行 的 任务 数 ， 除 此 之 外 不 会 产生 其 他 直 接 影 响 。 如 果 一 个 
TaskTracker 实 例 失 败 ，JobTracker 会 调度 集群 中 一 人 运转 正常 的 TaskTracker 
进程 重新 运行 失败 的 任务 。JobTracker 可 以 随意 在 集群 中 重新 安排 任务 ， 
为 TaskTracker 是 无 状态 的 ， 单 个 TaskTracker 故 障 不 会 影响 该 作业 的 其 他 部 
T 

相反 ，DataNode 本 质 上 是 有 状态 的 ， 某 个 DataNode 故 障 可 以 影响 HDFS 上 存 
储 的 持久 数据 ， 可 能 导致 无 法 访问 这 些 数据 。 


上 述 内 容 强 调 了 各 类 节点 的 性 质 及 其 在 整体 Hadoop 框 架 中 的 相互 关系 。 
DataNode 管 理 数 据 ， TaskTracker 对 DataNode 存 储 的 数据 进行 读 写 。 即使 每 
个 TaskTracker 都 发 生 灾难 性 故障 ， 都 不 会 影响 到 HDFS 的 功能 。 而 
NameNode 进 程 中 的 类 似 故 障 会 导致 活跃 的 MapReduce 集 群 无 法 使 用 (除非 
MapReduce 的 配置 允许 其 使 用 其 他 存储 系统 ) 。 


2. 永久 故障 


截至 目前 ， 我 们 假设 死亡 节点 可 在 相同 的 物理 主机 重新 启动 。 但 是 假如 物 
理 主机 发 生 了 致命 故障 导致 死亡 方 点 无 法 重启 ， 那 该 怎么 办 呢 ? 答案 很 简 
单 ， 将 该 主机 从 slaves 文 件 删 掉 ，Hadoop 就 不 再 启动 那 台 主机 上 的 DataNode 
或 TaskTracker。 假 如 你 有 一 台 蔡 代 主 机 ， 将 新 主机 加 入 到 相同 文件 并 运行 
start-all.sh 脚本。 


提示 : ”请 注意 ， 只 能 通过 start/stop 和 slaves ,sh 脚本 访问 slaves 文 
件 。 用 户 只 需 在 运行 这 些 命令 的 主机 上 更 新 该 文件 ， 而 无 需 在 每 个 节点 
都 进行 同样 操作 。 实 际 上 ， 运 行 这 些 命令 的 主机 通常 是 个 专用 的 主 节 

点 ， 或 者 NameNode 或 JobTracker 进 程 所 在 的 主机 。 我 们 将 在 第 7 章 介绍 这 


些 设 置 。 
杀 和 死 集群 主 节 点 
虽然 DataNode 进 程 和 TaskTrackerj 进 程 发 生 故 障 产生 的 影响 有 大 有 小 ， 但 是 
相对 来 讲 ， 个 别 节点 没 那 么 重要 。 无 论 哪个 TaskTracker 或 DataNode 发 生 故 
障 都 不 会 引起 关注 ， 只 有 多 个 节点 发 生 故 障 才 会 给 系统 市 来 问题 ， 尤 其 是 


多 个 市 点 接 二 连 二 地 发 生 故 障 。 但 是 ， 我 们 只 有 一 个 JobTracker 和 和 
NameNode， 让 我 们 看 看 它们 发 生 故 障 会 造成 什么 后 采 。 


6.6 ”实践 环节 : 杀 死 JobTracker 


首先 ， 我 们 将 杀 死 JobTracker 进 程 ， 我 们 认为 这 会 影响 执行 MapReduce 作 
业 ， 但 不 会 对 HDFS 文 件 系统 造成 影响 。 


1. 登录 到 JobTracker 主 机 并 杀 死 该 进程 。 


2. TM E 如 计算 圆周 率 的 作业 或 者 字数 统计 作 


$ Hadoop jar wc.jar WordCount3 test.txt output 

Starting Job 

11/12/11 16:03:29 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9001. Already tried © time(s). 

11/12/11 16:03:30 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9001. Already tried 1 time(s). 


11/12/11 16:03:38 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9001. Already tried 9 time(s). 


java.net.ConnectException: Call to /10.0.0.100:9001 failed on 
connection exception: java.net.ConnectException: Connection 
refused 

at org.apache.hadoop.ipc.Client.wrapException(Client.java:767) 

at org.apache.hadoop.ipc.Client.call(Client.java:743) 

at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:220) 


3. 执行 一 些 HDFS 操 作 。 


$ hadoop fs -ls / 

Found 2 items 

drwxr -xr -x - hadoop supergroup © 2011-12-11 19:19 /user 
drwxr -xr -x - hadoop supergroup © 2011-12-04 20:38 /Var 
$ hadoop fs -cat test.txt 

This is a test file 


原理 分 析 


在 杀 死 JobTracker 进 程 之 后 ， 我 们 试图 启动 一 个 MapReduce 作 业 。 在 第 2 章 
中 ， 我 们 了 解 到 ， 运 行 作 业 的 主机 上 的 客户 端 要 通过 与 JobTracker 的 通信 完 
成 作业 调度 的 初始 化 工作 。 但 本 例 中 ，JobTracker 已 经 停止 运行 ， 通 信 过 程 
无 法 完成 ， 作 业 以 失败 告终 。 


随后 ， 我 们 执行 了 一 些 HDFS 命 仿 ， 青 次 强调 了 上 市 提 到 的 要 点 ， 运 行 异常 
的 MapReduce 集 群 不 会 对 HDFS 造 成 直接 影响 ， 所 有 的 客户 端 都 可 访问 
HDFS 并 执行 HDFS 命 令 。 


启动 兰 代 JobTracker 


MapReduce 集 群 的 恢复 也 较为 简单 。 只 要 重启 JobTracker， 所 有 后 续 
MapReduce 作 业 都 会 成 功 运行 。 


请 注意 ， 当 JobTracker 被 杀 死 时 ，MapReduce 框 架 没 有 保存 任何 正在 执行 的 
作业 的 状态 信息 ， 所 有 的 未 完成 作业 都 需 重 启 。 要 留意 一 下 HDFS 上 的 临时 
文件 和 临时 目 隶 ， 许 多 MapReduce 作 业 会 在 HDFS 写 入 一 些 临 时 数据 ， 并 会 
在 作业 运行 结束 时 删 掉 这 些 数 据 。 失 败 的 作业 (尤其 是 由 JobTracker 故 障 引 


可 能 会 留 下 一 些 这 种 文件 ， 用 户 需 要 手动 清理 这 些 临 时 数 


一 展 身手 : 在 新 主机 上 运行 JobTracker 


但 是 ， 假 如 JobTracker 进 程 所 在 的 主机 发 生 了 致命 的 硬件 错误 ， 无 法 在 该 主 
机 上 重启 JobTracker 进 程 ， 这 时 候 该 怎么 办 呢 ? 在 这 种 情况 下 ， 用 户 需 要 在 
另外 一 台 主 机 上 启动 一 个 新 JobTrackerj 进 程 。 这 需要 对 所 有 节点 上 的 
mapred-site. xml 文 件 进行 修改 ， 更 痢 该 文件 中 的 主 和 点 地 址 ， 并 重启 
集群 。 斌 着 完成 这 些 操 作 。 我 们 将 在 第 7 章 详 细 探 讨 这 个 话题 。 


6.7 ”实践 环节 : 杀 死 NameNode 进 程 


接 下 来 ， 我 们 将 杀 死 NameNode 进 程 。 我 们 认为 ， 这 将 直接 导致 无 法 访问 
HDFS， 进 而 会 影响 天 MapReduce 框 架 ， 使 MapReduce 作 业 无 法 运行 。 


提示 : 不 要 在 正在 运行 的 重要 集群 中 党 试 此 操作 。 尽 管 它 带 来 的 影响 是 
短暂 的 ， 但 整个 集群 会 在 一 段 时 间 内 处 于 瘫痪 状态 。 


1. 登录 到 NameNode 主 机 并 列 出 所 有 的 正在 运行 的 进程 。 


$ jps 

2372 SecondaryNameNode 
2118 NameNode 

2434 JobTracker 

5153 Jps 


2. 东 死 NameNode 进 程 。 别 理会 SecondaryNameNode 进 程 ， 可 以 让 它 继续 
保持 运行 。 


3. 尝试 访问 HDFS 文 件 系统 。 


$ hadoop fs -ls / 

11/12/13 16:00:05 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried © time(s). 

11/12/13 16:00:06 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 1 time(s). 

11/12/13 16:00:07 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 2 time(s). 

11/12/13 16:00:08 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 3 time(s). 


11/12/13 16:00:09 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 4 
time(s). 


Bad connection to FS. command aborted. 


4. 提交 MapReduce 作 业 。 


$ hadoop jar hadoop/hadoop-examples-1.0.4.jar pi 10 100 
Number of Maps - 10 

Samples per Map - 100 

11/12/13 16:00:35 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried © time(s). 

11/12/13 16:00:36 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 1 time(s). 

11/12/13 16:00:37 INFO ipc.Client: Retrying connect to server: 
/10.0.0.100:9000. Already tried 2 time(s). 


java.lang.RuntimeException: java.net.ConnectException: Call 
to /10.0.0.100:9000 failed on connection exception: java.net. 
ConnectException: Connection refused 

at org.apache.hadoop.mapred. JobConf.getworkingDirectory(JobConf. 
java:371) 

at org.apache.hadoop.mapred.FileInputFormat. 
setInputPaths(FileInputFormat.java:309) 


Caused by: java.net.ConnectException: Call to /10.0.0.100:9000 
failed on connection exception: java.net.ConnectException: 
Connection refused 


5. 碍 看 正在 运行 的 进程 。 


$ jps 

2372 SecondaryNameNode 
5253 Jps 

2434 JobTracker 
Restart NameNode 

$ start-all.sh 


6. 访问 HDFS。 


$ Hadoop fs -ls / 
Found 2 items 


drwxr -xr -x - hadoop supergroup © 2011-12-16 16:18 /user 
drwxr -xr -x - hadoop supergroup © 2011-12-16 16:23 /Var 


原理 分 析 


我 们 杀 死 了 NameNode 进 程 之 后 ， 党 试 访问 HDFS 文 件 系 统 。 当 然 ， 该 操作 
p Ne NameNode 宕 机 之 后 ， 集 群 中 就 没有 接收 文件 系统 命令 的 服 
FIAT 


随后 ， 我 们 试 着 提交 一 个 MapReduce 作 业 ， 该 操作 也 没有 成 功 。 从 简略 的 异 
常 堆栈 轨迹 可 以 看 出 ， 在 我 们 设置 作业 的 输入 数据 路 径 时 ，JobTracker 要 访 
问 NameNode， 却 没有 成 功 。 


接着 ， 我 们 通过 查看 正在 运行 的 进程 ， 确 定 了 JobTracker 运 行 正 常 ， 
MapReduce 作 业 失 败 的 原因 是 无 法 访问 NameNode 。 


最 后 ， 我 们 重启 了 NameNode 并 确认 HDFS 运 转正 常 。 
1. 启动 蔡 代 NameNode 


截至 目前 ， 我 们 认识 到 MapReduce 集 群 和 HDFS 集 群 存在 某 些 区 别 。 有 了 这 
TERTATA, LANI AER NameNode H HA FIERfVJobTrackerB] Ze RE 
KER RAZE . ZDRA, h TE MAn HRR 
Nainelóde, 这 可 能 十 Hadoop 集 群 中 最 糟糕 的 情况 。 除 非 你 有 充分 的 准备 ， 
否则 极 可 能 丢失 全 部 数据 。 


这 仅 是 一 个 结论 声明 ， 只 有 深入 研究 NameNode 的 本 质 ， 才 能 理解 为 什么 会 
出 现 上 述 情 况 。 


2. 详解 NameNode 


目前 ， 我 们 学 到 了 NameNode 是 DataNode 进 程 之 间 的 协调 着 ， 同 时 ， 它 还 负 
责 使 某 些 配置 参数 立即 生 致 ， 如 数据 块 复制 因 了 于。 这些 任 务 都 很 重要 ， 但 
它们 都 只 停留 在 操作 层面 。NameNode 还 负责 管理 HDFS 文 件 系统 的 元 数 
据 ， 可 以 把 它 类 比 为 传统 文件 系统 中 的 文件 分 配 表 。 


3. 文件 系统 、 文 件 、 数 据 块 和 节点 


在 访问 文件 系统 时 ， 用 户 通常 不 会 关注 数据 块 。 用 户 要 访问 的 是 文件 系统 
中 某 个 位 置 的 特定 文件 。 为 了 便于 实现 这 个 功能 ，NameNode 进 程 需要 维护 
许多 信息 。 

。 文件 系 统 的 实际 内 容 ， 所 有 文件 的 文件 名 ， 以 及 它们 所 在 的 目录 。 

。 关 于 上 壕 元 素 的 元 数据 ， 比 如 文件 大 小 、 所 有 者 、 复 制 因子 。 


。 文件 之 间 的 映射 和 关系 ， 反 映 了 哪些 数据 块 保存 的 是 哪个 文件 


。 集 群 中 太后 与 数据 块 的 映 册 天 系 ， 反 映 了 哪些 数据 块 存储 在 哪个 节操 
ed ， 基 于 上 述 映射 关系 ，NameNode 还 记录 了 每 块 数据 的 当前 副 


除 最 后 一 点 外 ， 所 有 信息 都 是 永久 数据 ， 必 须 在 NameNode 重 局 过 程 中 维护 


这 些 数 据 。 
4. 集群 中 最 重要 的 数据 : fsimage 


NameNode 进 程 在 便 弄 上 保存 了 两 个 数据 结构 ， 一 个 是 fsimage 文件 ， 男 
一 个 是 edit log， 它 记录 了 fsimage 文件 的 所 有 改动 。fsimage 文件 存储 
了 上 和 节 提 到 的 文件 系统 的 关键 属性 : 每 个 文件 及 目录 的 文件 名 和 详细 信 
轧 ， 以 及 每 个 文件 、 目 孙 与 数据 块 之 间 的 映射 天 系 。 


假如 于 了 fsimage 文件 ， 你 存 数据 块 的 让 点 束 无 法 获知 哪些 数据 块 对 应 着 
哪个 文件 的 哪 一 部 分 。 实 际 上 ， 你 甚至 都 不 知道 应 该 首先 构建 哪个 文件 。 
fsimage 文件 的 丢失 不 会 影响 文件 系统 数据 的 完整 性 ， 然 而 ， 这 些 数据 却 
变 得 毫 无 用 处 。 


NameNode 进 程 启动 时 会 读 取 fsimage 文件 为 了 高 效 运行 ， 这 些 数据 保 
存在 NameNode 的 内 存 中 ， 并 在 内 存 中 完成 操作 。 为 了 防止 丢失 对 文件 系统 
的 更 改 ， 这 些 更 改 在 NameNode 正 常 运转 时 间 被 写 入 edit log 文 件 。 重 新 局 动 
的 时 候 ， 局 动 之 时 就 搜寻 这 个 日 志文 件 ， 并 把 它 的 内 容 更 新 到 fsimage X 
件 中 ， 之 后 NameNode 会 把 fsimage 文件 的 内 容 读 入 内 存 。 


提示 : ”该 过 程 可 通过 使 用 稍 后 将 提 到 的 SecondaryNameNode 进 行 优化 。 


5. DataNode 的 启动 


当 DataNode 进 程 司 动 时 ， 它 开始 向 NameNode 进 程 发 送 心跳 信息 ， 报 告 存 储 
在 该 节点 的 数据 块 的 状态 。 本 章 前 面 内 容 曾 解释 过 ， 当 客户 端 提出 对 特定 
数据 块 的 读 写 请 求 时 ，NameNode 进 程 通 过 上 壕 方 法 可 获知 由 哪个 节点 辐 该 
客户 端 提 供 服务 。 如 果 重 局 了 NameNode， 它 将 与 所 有 DataNode 进 程 重新 建 
立 心 跳 机 制 ， 来 构建 数据 块 与 存储 和 点 的 映射 关系 。 


DataNode 因 故障 离开 集群 ， 故 障 恢复 后 叉 重 新 加 入 集群 ， 导 致 数据 块 与 市 
点 的 映射 关系 无 法 长 期 保存 ， 因 为 在 目前 的 实际 情况 下 ， 保 存在 硬盘 上 的 
状态 信息 可 能 并 不 是 最 新 的 。 这 也 是 NameNode 进 程 不 留存 数据 块 与 节点 之 
间 映 射 关系 的 原因 。 


6. 安全 模式 


如 果 用 户 在 HDFS 集 群 启动 后 不 久 即 查看 HDFS 网 页 用 户 接口 或 者 

dfsadmin 的 输出 ， 你 会 发 现 集 群 正 处 于 安全 模式 (safemode) ， 同 时 也 

e a a 。 这 是 数据 块 报告 机 制 在 
挥 作用 。 


作为 一 种 附加 的 保护 措施 ，NameNode 进 程 会 将 HDFS 文 件 系统 保持 在 只 读 
模式 下 ， 直 到 它 确认 DataNode 上 报 的 数据 块 数量 达到 了 副本 阐 值 。 通 常情 
况 下 ， 只 需 所 有 DataNode 上 报 其 数据 块 状态 即 可 。 但 是 ， 如 果 某 些 
DataNode 发 生 故 障 ，NameNode 需 要 安排 重新 复制 部 分 数据 块 ， 然 后 集群 才 
会 达到 离开 安全 模式 的 条 件 。 


7. SecondaryNameNode 


SecondaryNameNode 是 Haoop 中 命名 最 粳 糕 的 实体 。 当 读者 第 一 次 学 习 关 
键 的 fsimage 文件 时 ， 可 能 会 认为 这 个 名 为 SecondaryNameNode 有 助 于 防 
范 故 障 。 它 会 不 会 像 其 名 字 那 样 ， 是 运行 在 另 一 台 主 机 上 的 NameNode 的 副 
本 ， 当 主 节点 发 生 故 障 时 ， 它 会 接管 工作 ， 控 制 集群 ? 很 遗憾 ， 答 案 是 否 
定 的 。 SecondaryNameNode 的 作用 很 特殊 ， 它 周期 性 读 取 fsimage Medit 
log， 并 把 edit log 中 记录 的 对 fsimage 的 改动 应 用 到 fsimage XF, H 
出 一 个 经 过 更 新 的 fsimage 文件 。 该 方案 为 NameNode 广 省 了 大 量 局 动 时 
间 。 一 个 已 长 时 间 运 行 的 NameNode 进 程 ， 会 生成 一 个 巨大 的 edit log， 将 该 
文件 中 的 所 有 改动 一 次 性 应 用 到 存储 在 硬盘 上 的 fsimage 文件 会 花费 很 长 
时 间 ， 很 容易 就 能 浪费 掉 几 个 小 时 。 使 用 SecondaryNameNode 可 以 帮助 
NameNode 较 快 启动 。 


8. 如 何 处 理 NameNode 进 程 的 致命 故障 


显然 ， 当 NameNode 发 生 人 致命 故障 上 时， 我 们 安慰 上 自己 “不 要 懂 乱 ”无 济 于 事 ， 
必须 要 有 解决 方法 。 有 多 种 原因 可 能 造成 NameNode 故 障 。 这 个 话题 太 重 要 
了 ， 以 至 于 我 们 在 下 一 章 专 门 用 一 广内 容 来 讨论 它 。 但 现在 ， 主 要 的 防范 
措施 就 是 配置 NameNode， 让 它 把 fsimage Medit log 输 出 到 多 个 不 同位 

置 。 通 常 ， 我 们 可 以 添加 一 个 网 络 文 件 系 统 作为 fsimage 的 输出 位 置 ， 保 
证 在 NameNode 主 机 之 外 还 存 有 一 个 fsimage 副本 。 


但 是 ， 将 NameNode 移 到 一 台新 主机 需要 手工 操作 ， 在 完成 这 些 操作 的 过 程 
中 ， 整 个 Hadoop 集 群 完全 失效 。 你 需要 掌握 这 些 操作 。 对 了 ， 你 曾 在 测试 
环境 中 成 功 完 成 过 这 些 步 桑 ! 千 万 不 要 在 业务 集群 死机 ，CEO 表 你 大 喊 大 
叫 ， 公 司 发 生 经 济 损失 的 时 候 才 去 学 习 如 何 将 NameNode 移 到 新 主机 上 。 


9. BackupNode/CheckpointNode 和 NameNode HA 


0.22 版 的 Hadoop 用 BackupNode 和 CheckpointNode 这 两 个 新 组 件 来 代替 
SecondaryNameNode。 实 际 上 ，CheckpointNode 是 对 SecondaryNameNode 的 
重 命名 ， 它 负责 在 固定 的 checkpoint 周 期 性 地 对 fsimage 文件 进行 更 新 ， 以 
减少 NameNode 的 启动 时 间 。 


而 BackupNode 更 像 是 对 NameNode 完 整 功能 的 热 备 份 。 它 在 内 存 中 保存 了 主 
NameNode 的 同步 状态 ， 并 从 NameNode 接 收文 件 系统 的 更 新 数据 流 ， 

此 ， 任 何 时 刻 其 内 存 状 态 都 是 最 新 的 。 如 果 NameNode 死 机 了，BackupNode 
更 适合 当 渐 NameNode。 使 用 BackupNode 作 为 新 NameNode 的 过 程 不 是 目 动 
的 ， 它 需要 手工 干预 ， 重 启 集群 ， 但 它 能 解决 NameNode 故 障 带 来 的 麻烦 。 


HWE, Hadoop 1.0 是 0.20 版 本 的 延续 ， 因 此 它 不 具备 上 壕 特性 。 


Hadoop 2.0 会 将 上 述 特 性 扩展 ， 最 终 目 标 是 实现 一 种 全 上 自动 的 NameNode 故 
障 恢 复 机 制 ， 无 需 人 工 干预 从 主 NameNode 到 备份 NameNode 的 迁移 过 程 。 
HA (High Availability) 是 最 早 提出 的 一 种 实现 上 述 目标 的 Hadoop 架 构 改革 
方案 ， 一 旦 实现 ， 它 将 发 挥 重 要 作用 。 


10. 硬件 故障 


前 几 节 ， 我 们 故意 制造 了 Hadoop 各 组 件 的 故障 。 大 多 数 情 况 下 ， 我 们 是 用 
结束 Hadoop 进 程 的 方式 模拟 主机 的 物理 硬件 故障 。 根 据 经 给， 很 少 遇 到 
Hadoop 进 程 发 生 故 障 ， 而 作为 集群 基础 的 主机 硬件 却 没有 任何 问题 的 情 


v 


况 


11. 主机 故障 


主机 故障 是 要 考虑 的 最 简单 的 情况 。 主 机 故障 可 以 由 关键 硬件 的 问题 导 
致 ， 比 如 CPU 故障 、 电 压 过 低 、 风 记 被 卡 住 等 。 它 会 导致 运行 在 该 主机 的 
Hadoop 进 程 突然 中 止 。 系 统 软件 的 重要 缺陷 ， 如 内 核 错误 、IO 死 锁 等 ， 也 
会 造成 同样 后 果 。 


一 般 来 讲 ， 假 如 故障 导致 主机 般 涡 、 重 局 或 其 他 情况 使 其 在 一 段 时 间 内 无 
法 访问 ， 我 们 认为 这 些 故 障 对 Hadoop 的 影响 和 本 章 前 几 闻 的 描述 完全 相 


同 


12. 主机 错误 


更 隐蔽 的 问题 是 ， 主 机 看 上 去 运行 正 芝 ， 实 际 上 和 输出 的 是 错误 结 有 末 。 例 
人 


对 HDFS 而 言 ， 这 相当 于 我 们 之 前 讨论 的 数据 块 丢失 的 情况 。 


在 MapReduce 中 ， 没 有 等 价 机 制 。TaskTracker 和 其 他 大 多 数 软件 一 样 ， 它 依 
o 
误 数据 的 机 制 。 


13. 关联 故障 的 风险 


某 些 情况 下 ， 一 个 故障 的 起 因 也 会 造成 后 续 多 个 故障 ， 并 会 大 大 增加 数据 
丢失 的 风险 。 但 很 多 人 在 遭受 损失 之 前 从 未 认真 考虑 过 这 个 问题 。 


举 个 例子 ， 我 曾 使 用 由 4 台 联 网 设备 组 成 的 系统 工作 。 其 中 1 人 台 设 备 出 现 了 
故障 ， 没 人 去 关注 这 个 问题 。 毕 况 还 有 3 人 台 设 备 可 以 正常 工作 。 直 到 它们 在 
18 小 时 内 全 部 出 现 故 障 ， 才 有 人 去 调查 。 后 来 发 现 ， 这 些 设备 使 用 的 同一 
生产 批 次 的 硬 副 存在 质量 问题 。 


问题 并 非 总 是 这 么 菲 夷 所 思 。 最 常见 的 情况 是 ， 共 享 服务 或 共享 设备 出 现 
故障 。 网 络 交 换 机 会 坏 挥 ， 电 源 功 率 会 突 增 ， 空 调 会 里 工 ， 设 备 染 会 引起 
短路 。 下 一 章 我 们 会 看 到 ，Hadoop 并 不 是 随机 分 配 数 据 块 的 存储 位 置 ， 它 
努力 实现 一 种 数据 布局 策略 ， 尽 量 降低 共享 服务 引发 故障 的 可 能 性 以 及 故 
障 造 成 的 损失 。 


一 般 情 况 下 ， 我 们 讨论 的 上 述 情 况 不 太 可 能 出 现 。 绝 大 多 数 情况 下 ， 出 现 
故障 的 主机 只 是 个 别 现象 ， 它 并 非 故 障 危 机 的 冰山 一 角 。 但 是 ， 请 记 住 ， 
千 万 不 要 轻视 这 些 不 可 能 出 现 的 情况 ， 尤 其 是 在 集群 规模 日 益 增 长 的 时 


候 。 


由 软件 造成 的 任务 失败 
如 前 所 述 ， 实 际 上 很 少 过 到 Hadoop 进 程 目 己 有 衣 演 或 其 他 组 件 目 发 失效 的 情 


S 
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reduce 任 务 引 发 的 故障 。 
缓慢 运行 的 任务 引发 的 故障 
果 任 务 暂 停 ， 或 者 在 Hadoop 看 来 任务 停止 运行 将 会 引发 的 后 


6.8 ”实践 环节 : 引发 任务 故障 


EN HUNE 。 在 开始 行动 之 前 ， 我 们 需要 修改 默认 的 超时 彰 


1. 


N 


UJ 


将 下 列 配 置 属性 添加 到 mapred-site.xml 文 件 。 


<property> 
<name>mapred.task.timeout 
<value>30000 

</property> 


.我 们 现在 修改 第 3 章 中 曾 多 次 用 到 的 WordCount 例 程 。 复 制 


wordcount3.java ， 重 命名 为 WordCountTimeout .java ， 并 添 
加 下 列 引 用 声明 。 


import java.util.concurrent.TimeUnit ; 
import org.apache.hadoop.fs.FileSystem ; 
import org.apache.hadoop.fs.FSDataOutputStream ; 


. fH PAUUO EA map 方法 。 


public void map(Object key, Text value, Context context 
) throws IOException, InterruptedException { 
String lockfile - "/user/hadoop/hdfs.lock" ; 
Configuration config - new Configuration() ; 


FileSystem hdfs - FileSystem.get(config) ; 
Path path - new Path(lockfile) ; 


if (!hdfs.exists(path)) 


t 

byte[] bytes - "A lockfile".getBytes() ; 
FSDataOutputStream out = hdfs.create(path) ; 

out.write(bytes, 0, bytes.length); 

out.close() ; 

TimeUnit.SECONDS.sleep(100) ; 

H 


String[] words - value.toString().split(" ") ; 
for (String str: words) 


word.set(str); 
context.write(word, one); 


} 
} 


} 


4. 修改 类 名 ， 之 后 编译 WordCcountTimeout .java 并 打包 为 jar 文 件 ， 
在 集群 上 运行 。 


$ Hadoop jar wc.jar WordCountTimeout test.txt output 


11/12/11 19:19:51 INFO mapred.JobClient: map 50% reduce 096 

11/12/11 19:20:25 INFO mapred.JobClient: map 096 reduce 096 

11/12/11 19:20:27 INFO mapred.JobClient: Task Id : attempt 2011121 

11821 0004 m 000000 0, Status : FAILED 

Task attempt 201112111821 0004 m 000000 O failed to report status for 32 seconds. 
Killing! 

11/12/11 19:20:31 INFO mapred.JobClient: map 100% reduce 0% 

11/12/11 19:20:43 INFO mapred.JobClient: map 100% reduce 10096 

11/12/11 19:20:45 INFO mapred.JobClient: Job complete:job 201112111821 0004 
11/12/11 19:20:45 INFO mapred.JobClient: Counters: 18 

11/12/11 19:20:45 INFO mapred.JobClient: Job Counters 


原理 分 析 


首先 ， 我 们 修改 了 Hadoop 的 默认 超时 属性 。 如 果 任 务 在 这 段 时 间 里 处 于 静 
默 状态 ， 那 么 这 段 时 间 结 束 后 ，Hadoop 框 架 会 强制 结束 该 任务 。 


接着 ， 我 们 对 WordCount3 进 行 修 改 ， 加 入 一 些 代码 让 该 任务 休眠 100 秒 。 程 

序 中 用 到 了 HDFS 上 的 文件 锁 ， 以 确 你 只 有 一 个 任务 实例 处 于 休眠 状态 。 如 

果 我 们 只 在 map 操 作 中 加 入 休眠 声明 而 不 加 上 文件 锁 ， 每 个 mapper 都 会 超时 
最 终 导致 作业 失败 。 


一 展 身 手 : 编写 代码 访问 HDFS 


我 们 讲 过 ， 本 书 不 会 介绍 如 何 编写 程序 访问 HDFS。 然 而， 注意 一 下 上 例 中 
的 代码 ， 并 在 Java 文 档 中 查阅 用 到 的 这 些 类 。 你 会 发 现 ， 很 大 程度 上 ， 这 些 


接口 与 访问 标准 Java 文 件 系 统 的 模式 类 似 。 
然后 我 们 编译 源 代码 ， 打 包 类 文件 并 在 集群 上 执行 作业 。 第 一 个 任务 进入 


休 眼 状态 ， 在 超过 设置 的 超时 间 值 GALERI) 之 后 ，Hadoop 杀 
死 该 任务 ， 并 重新 安排 另 一 个 mapper 处 理 该 任务 负责 处 理 的 split 。 


1. Hadoop 对 运行 缓慢 的 任务 的 处 理 方式 


面 对 运行 绥 慢 的 任务 ，Hadoop 有 一 种 平衡 做 法 。 它 要 强制 结束 那些 卡 住 的 
任务 ， 或 者 由 于 其 他 原因 运行 非常 缓慢 的 任务 。 但 有 些 时 候 ， 复 杂 任 务 通 
常 需要 花费 较 长 时 间 。 尤 其 是 依赖 其 他 外 部 资源 完成 自身 运行 的 任务 ， 往 
往 需要 较 长 的 运行 时 间 。 


Hadoop 从 任务 进度 中 寻找 线索 ， 以 推断 其 处 于 空 采 状态 、 静 默 状态 或 卡 住 
AOTH o MERI, RRRA: 


。 输出 结果 ; 
。 癌 计数 器 写 入 数值 ; 
。 明确 地 报告 进度 。 


对 于 后 者 ，Hadoop 提 供 了 Progressable 接口 ， 该 接口 包含 一 个 有 趣 的 方 
法 。 


Public void progress() ; 


Context 类 实现 了 Progressable 接口 ， 因 此 任意 mapper 或 者 reducer 都 
可 以 调用 context,progress() 报告 作业 执行 的 进度 。 


2. 预测 执行 


通常 ， 一 个 MapReduce 作 业 包 括 多 个 离散 的 map 和 reduce 任 务 。 在 集群 上 运 
行 作 业 时 ， 由 于 某 台 主机 配置 错误 或 者 发 生 故 障 导 致 该 主机 运行 的 任务 明 
显 落 后 于 其 他 任务 的 风险 确实 存在 。 


为 了 解决 这 一 问题 ，Hadoop 会 在 map 或 reduce 阶 段 即 将 结束 之 际 ， 在 集群 中 
的 多 台 主 机 上 运行 相同 的 map 或 reduce 任 务 。 预 测 任务 执行 的 目的 在 于 ， 防 
止 因 一 两 个 运行 缓慢 的 任务 对 整个 作业 的 运行 时 间 产 生 重 大 影响 。 


3. Hadoop 对 失败 任务 的 处 理 方法 


运行 失败 的 任务 并 非 总 是 以 暂停 运行 的 形式 存在 。 有 时 它们 会 明确 地 抛 出 
异 遂 、 中 止 运行 或 以 其 他 有 声 方式 停止 运行 。 


Hadoop 的 3 个 配置 属性 决定 了 应 对 任务 故障 的 方式 ， 它 们 都 是 在 mapred- 
site.xml 文件 中 进行 设置 。 


mapred.map.max.attempts: 在 引起 作业 失败 之 前 ， 每 个 map 作 业 
的 最 大 重 试 次 数 。 


mapred.reduce.max.attempts: 在 引起 作业 失败 之 前 ， 每 个 
reduce 作 业 的 最 大 重 试 次 数 。 


mapred.max.tracker.failures : 如 果 失 败 的 任务 数 超过 该 值 ， 
整个 作业 失败 。 


上 述 属 性 的 默认 值 都 是 4. 


提示 : 请 注意 ， 如 果 mapred .tracker .max.failures 的 值 小 于 其 他 
两 个 属性 中 的 任何 一 个 ， 该 设置 都 不 会 生效 。 


配置 这 些 属性 中 的 哪 一 个 ， 取 决 于 数据 和 作业 的 性 质 。 如 采 作 业 要 访问 
的 外 部 资源 可 能 经 常 出 现 暂 时 错误 ， 最 好 增 大 任务 的 重 试 次 数 。 但 如 采 
任务 处 理 的 是 特定 数据 ， 这 些 属 性 可 能 都 不 太 适 用 ， 因 为 失败 过 一 次 的 
任务 依然 还 会 失败 。 无 论 如 何 ， 大 于 1 的 默认 值 是 有 意义 的 ， 因 为 在 大 型 
复杂 系统 中 ， 总 会 出 现 各 种 短暂 故障 。 


RAF: 引发 任务 失败 


再 次 修改 WordCount 程 序 。 这 次 不 是 让 任务 休眠 ， 而 是 基于 随机 数 抛 出 
RuntimeException。 修 改 集 群 配置 并 人 研究 多 少 个 失败 的 任务 会 导致 整个 作业 
失败 。 


6.9 ”数据 原因 造成 的 任务 故障 


我 们 将 要 讨论 的 最 后 一 类 故障 是 由 数据 引发 的 。 在 这 里 ， 我 们 指 的 十 由 包 
人 台 错 误 数 据 的 记录 导致 的 任务 故障 ， 可 能 是 因为 数据 类 型 或 者 格式 错误 ， 
i o 这 些 情况 下 ， 任 务 接收 的 数据 往往 背离 了 我 
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1. 通过 编写 代码 处 理 异 常数 据 


处 理 异 常数 据 的 一 种 方法 是 ， 在 mapper 和 reducer 中 实现 防范 异常 数据 的 机 
制 。 例 如 ， 假 如 mapper 接 收 的 数据 应 该 是 一 系列 以 逗号 分 隅 的 值 ， 那 么 在 
处 理 数据 之 前 首先 验证 数据 数目 是 否 正 确 。 如 果 第 一 个 值 应 该 是 一 个 整数 
2 qum ， 傅 保 字 符 串 同 数 字 类 型 的 转换 有 可 靠 的 错误 处 理 机 制 和 默 
认 行 为 。 


这 种 方法 的 问题 是 ， 无 论 你 有 多 细心 ， 总 会 有 一 些 怪异 的 输入 数据 类 型 没 
有 考虑 到 。 你 是 否 考虑 接收 不 同 unicode 字 符 集 的 值 ? 遇 到 多 个 字符 集 、 空 
值 、 错 误 结尾 的 字符 串 、 错 误 编码 的 转 义 字符 等 情况 ， 该 怎么 办 呢 ? 


如 宁 作 业 的 输入 数据 是 由 用 户 生成 的 ， 或 者 受用 户 控制 ， 可 以 较 少 关注 这 
EU 2m 如 果 用 户 处 理 的 数据 来 自 外 部 数据 源 ， 就 会 发 生 一 些 意 
和 MA UE 情 ; x 


2. 使 用 Hadoop 的 skip 模 式 


男 一 种 方法 是 配置 Hadoop， 让 它 以 其 他 方式 处 理 任务 故障 。 与 将 任务 故障 
视 为 原 了 于 事件 不 同 ，Hadoop 试 图 识别 出 引发 问题 的 数据 ， 并 在 将 来 的 任务 
执行 中 跳 过 这 些 数据 。 这 种 机 制 被 称 为 skip 模 式 。 假 如 你 遇 到 各 种 各 样 的 
数据 问题 ， 而 又 不 想 编码 解决 这 些 问 题 或 者 编码 解决 这 些 问题 是 不 切实 际 
的 ， 这 个 时 候 吏 用 到 skip 模 式 了 。 又 或 者 ， 你 的 作业 使 用 了 第 三 方 库 ， 而 又 
没有 这 些 库 的 源 代码 ， 可 能 只 能 使 用 skip 模 式 来 解决 数据 问题 了 。 


出 于 其 他 考虑 ，skip 模 式 目 前 仅 适 用 于 0.20 之 前 版 本 的 API 编 写 的 作业 。 


6.10 ”实践 环节 : 使 用 skip 模 式 处 理 异常 数据 


我 们 通过 实际 编写 一 个 MapReduce 作 业 来 学 习 skip 模 式 ， 该 作业 接收 的 数据 
会 导致 其 运行 失败 。 


1. 将 下 列 Ruby 脚 本 保存 为 gendata.rb 文件 。 


File.open("skipdata.txt", "w") do |file| 

3.times do 
500000.times[file.write("A valid record\n")} 
5.times([file.write("skiptext*n")) 


end 
500000.times[file.write("A valid record\n")} 
nd 


2. 运行 脚本 o 


$ ruby gendata.rb 


3, 检查 生成 文件 的 大 小 及 其 行 数 。 


$ ls -lh skipdata.txt 

-rw-rw-r-- 1 hadoop hadoop 29M 2011-12-17 01:53 skipdata.txt 
-$ cat skipdata.txt | wc -1 

2000015 


4. 将 生成 的 skipdata .txt 数据 拷贝 到 HDFS » 


$ hadoop fs -put skipdata.txt skipdata.txt 


5. 在 mapred-site.xml 文件 中 添加 下 列 属性 。 


<property> 
<name>mapred.skip.map.max.skip.records 
<value5</value> 

</property> 


6. f mapred.max.map.task.failures 的 值 ， 如 果 该 值 小 于 20 的 
话 ， 将 其 设 为 20。 
7. 将 下 列 Java 代 码 保存 为 SkipData.java 文件。 


import java.io.IOException; 


import org.apache.hadoop.conf.* ; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.* ; 

import org.apache.hadoop.mapred.* ; 
import org.apache.hadoop.mapred.lib.* ; 


public class SkipData 

i 
public static class MapClass extends MapReduceBase 
implements Mapper 


{ 


private final static Longwritable one = new Longwritable(1); 
private Text word - new Text("totalcount"); 


public void map(LongWwritable key, Text value, 
OutputCollector output, 
Reporter reporter) throws IOException 


String line - value.toString(); 
if (line.equals("skiptext")) 


throw new RuntimeException("Found skiptext") ; 
output.collect(word, one); 


public static void main(String[] args) throws Exception 
1 
Configuration config - new Configuration() ; 
JobConf conf - new JobConf(config, SkipData.class); 
conf.setJobName("SkipData"); 


conf.setOutputKeyClass(Text.class); 
conf.setOutputValueClass(LongWritable.class); 


conf.setMapperClass(MapClass.class); 
conf.setCombinerClass(LongSumReducer.class); 
conf.setReducerClass(LongSumReducer.class); 


FileInputFormat.setInputPaths(conf,args[0]) ; 
FileOutputFormat.setOutputPath(conf, newPath(args[1])) ; 


JobClient.runJob(conf); 


Co 


. 编译 该 文件 ， 并 将 其 打包 为 skipdata.jar ° 
9. 运行 作业 。 


$ hadoop jar skip.jar SkipData skipdata.txt output 


11/12/16 17:59:07 INFO mapred.JobClient: map 45% reduce 8% 
11/12/16 17:59:08 INFO mapred.JobClient: Task Id : attempt 2011121 
61623 0014 m 000003 0, Status : FAILED 

java.lang.RuntimeException: Found skiptext 

at SkipData$MapClass.map(SkipData.java:26) 

at SkipData$MapClass.map(SkipData.java:12) 

at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:50) 

at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask. java:358) 
at org.apache.hadoop.mapred.MapTask.run(MapTask. java:307) 

at org.apache.hadoop.mapred.Child.main(Child.java:170) 


11/12/16 17:59:11 INFO mapred.JobClient: map 42% reduce 8% 
11/12/16 18:01:26 INFO mapred.JobClient: map 70% reduce 16% 
11/12/16 18:01:35 INFO mapred.JobClient: map 71% reduce 16% 


11/12/16 18:01:43 INFO mapred.JobClient: Task Id : attempt 2011111 
61623 0014 m 000003 2, Status : FAILED 
java.lang.RuntimeException: Found skiptext 


11/12/16 18:12:44 INFO mapred.JobClient: map 99% reduce 2996 
11/12/16 18:12:50 INFO mapred.JobClient: map 100% reduce 2996 
11/12/16 18:13:00 INFO mapred.JobClient: map 100% reduce 10096 


11/12/16 18:13:02 INFO mapred.JobClient: Job complete: 
job 201112161623 0014 


10. 检查 作业 输出 文件 的 内 容 。 


$ hadoop fs -cat output/part-00000 


totalcount 2000000 


11. 在 输出 路 径 中 碍 看 跳 过 的 数据 。 


$ hadoop fs -ls output/ logs/skip 
Found 15 items 


-rw-r--r-- 3 hadoop supergroup 203 2011-12-16 18:05 
/user/hadoop/output/ logs/skip/attempt 201112161623 0014 m 000001 3 
-rw-r--r-- 3 hadoop supergroup 211 2011-12-16 18:06 


/user/hadoop/output/ logs/skip/attempt 201112161623 0014 m 000001 4 


12. 通过 MapReduce UI 查看 作业 详情 ， 观 察 统计 数据 ， 如 图 所 不 。 


Æ Hadoop job. 201112161623 0014 on head - Windows Internet Explorer 
^ uMUITMUTUETTESUUTITTIO-mA»-«— * E 
Be Edt yen favores oos bsp 
-| TT | 


cp Fries — (B Madan jdb 201112161623 0014 on fred | | 


Failed/Killed 
Task Attempts 


Kind  % Complete Num Tasks Pending Running Complete Killed 

map 50.00% 8 1 D & 0 2211 

reduce 00.00% 1 0 4 0 010 
Counter Map Reduce 

Launched reduce tasks 


Rack-loca map tasks 


[i 
1 
Launched mep tasks n 
í 


j 

J 

Dara-iocal map tasks a 

SkippingTaskCounters — MapProcessecRecords 2.000.000 ) 

FILE_BYTES_READ 378 321 699 

HCFS BYTES READ 30.028 614 O [30.028.814 

FILE. BYTES WRITTEN 321 1,318 
HDFS BYTES WRITTEN 


2,000,000 


Reduce inout 
Map skipped records 
Combine output records 


原理 分 析 


上 例 中 ， 我 们 完成 了 许多 设置 ， 现 在 将 对 其 条 解释 。 


首先 ， 我 们 需要 对 Hadoop 进 行 配置 ， 开 局 Skip 模式， 默认 情况 下 ， 该 模式 处 
于 关闭 状态 。 关 键 是 将 mapred.skip.map.max.skip.records 的 值 设置 为 5 ， 这 就 
是 说 ， 我 们 指令 Hadoop 框 架 跳 过 小 于 5 条 记录 的 数据 集 。 请 注意 ， 这 个 值 包 
括 无 效 记 录 的 数量 ， 如 果 将 该 属性 的 值 设 为 6 (默认 设置 ) ，Hadoop 就 不 

会 进入 skip 模 式 。 


我 们 也 检查 mapred.max.map.task.failures 的 值 ， 确 保 作 业 会 重 试 足够 多 次 
具体 原因 稍 后 解释 。 


接 下 来 ， 我 们 需要 使 用 一 个 测试 文件 模拟 异常 数据 。 我 们 编写 了 一 个 简单 
的 Ruby 脚 本 生成 一 个 文件 ， 该 文件 包含 2 000 000 行 有 效 数 据 ， 以 及 分 散在 


文件 中 的 3 组 无 效 数 据 ， 每 组 包括 5 条 无 效 记录 。 我 们 运行 该 脚本 ， 并 确认 
生成 的 文件 确实 包括 2 000 015 行 。 然 后 ， 将 该 文件 放 到 HDFS 上 。 


随后 ， 我 们 编写 一 个 简单 的 MapReduce 作 业 统 计 有 效 记 录 数 量 。 作 业 每 次 从 
输入 文件 读 取 一 行 ， 如 果 该 行为 有 效 记 录 ， 输 出 值 1， 最 终 这 些 输出 值 聚 合 
成 为 最 终 输出 值 。 当 过 到 无 效 数据 行 时 ，mapper 抛 出 一 个 异常 并 失败 。 


接 下 来 编译 上 述 作业 源 代 码 ， 打 包 为 jar 文 件 ， 并 运行 作业 。 一 段 时 间 后 ， 
作业 运行 结束 。 从 作业 状态 摘要 中 可 以 看 出 ， 我 们 从 未 见 过 这 种 运行 模 
式 。 随 着 map 任 务 的 运行 ，map 进 度 计 数 器 的 值 不 断 增 大 ， 但 当 任务 失败 
时 ，map 任 务 进度 后 退 然 后 再 次 增 大 。 这 束 是 skip 模 式 。 


每 当 mapper 接 收 到 键 值 对 时 ，Hadoop 默 认 增 加 计数 器 的 值 ， 这 样 束 会 记录 
哪 条 数据 引发 了 故障 。 


技巧 如 果 map 或 reduce 任 务 并 非 直接 通过 map 或 reduce 方 法 的 参数 来 接 
MS RN sg 〈 例 如 ， 从 异步 进程 或 缓存 中 接收 数据 ) 你 就 需要 手动 更 
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任务 失败 时 ，Hadoop 在 相同 数据 块 上 重 试 ， 但 只 试图 解决 无 效 的 记录 。 通 
过 二 分 搜索 方法 ，Hadoop 框 染 在 数据 上 重 试 ， 直 到 跳 过 的 记录 数 小 于 我 们 
之 前 设置 的 最 大 值 (本 例 中 该 值 为 5)) 。 因 为 Hadoop 框 架 要 找 的 是 跳 过 记录 
的 最 佳 值 ， 因 此 这 个 过 程 会 导致 多 次 任务 重 试 和 失败 ， 这 也 有 是 我 们 需要 将 
任务 重 试 次 数 设置 为 略 大 于 通常 值 的 原因 。 


我 们 等 待 作业 持续 进行 这 种 往复 处 理 ， 完 毕 后 查看 输出 文件 的 内 容 。 该 文 
件 包 含 2 000 000 条 已 处 理 记录 ， 正 是 输入 文件 中 的 有 歼 记 录 数 。Hadoop 成 
功 地 跳 过 了 3 组 无 效 记 录 。 


接着 ， 我 们 检查 作业 输出 路 径 下 的 _1ogs 目录 ， 发 现 该 目录 下 有 一 个 skip 
目录 ， 存 放 着 被 跳 过 记录 组 成 的 序列 文件 。 


最 后 ， 通 过 MapReduce 网 页 用 户 接口 查看 整个 作业 的 状态 ， 既 包括 在 skip 模 
式 下 处 理 的 记录 数 ， 也 包括 跳 过 的 记录 数 。 请 注意 ， 失 败 的 任务 总 数 为 
22。 但 这 个 数字 是 多 个 任务 失败 次 数 的 总 和 ， 因 此 即使 大 于 我 们 设置 的 map 
任务 重 斌 次 数 也 是 合理 的 。 


是 否 开启 skip 模 式 


skip 模 式 可 有 效 解 决 错 误 数 据 市 来 的 问题 。 但 正如 我 们 刚才 看 到 的 ， 因 为 
Hadoop 需 要 确定 跳 过 哪些 范围 内 的 数据 ， 这 就 带 来 了 性 能 损失 。 在 我 们 的 


测试 文件 中 ， 无 效 记 录 刚 好 被 分 为 3 组 ， 它 们 只 占 全 部 数据 集 的 很 小 一 部 
分 ， 利 于 Hadoop 在 skip 模 式 下 运行 。 但 如 末 输 入 数据 包含 许多 无 效 记录 ， 并 
且 它 们 散布 于 文件 中 ， 更 有 效 的 办 法 可 能 十 使 用 预 处 理 Mapreduce 作 业 滤 掉 
所 有 的 无 效 记 录 。 


这 也 是 我 们 在 介绍 了 编写 代码 处 理 错误 数据 的 方法 之 后 ， 紧 接着 就 介绍 skip 
模式 的 原因 。 它 们 都 是 你 应 当 掌 握 的 有 效 技术 。 不 存在 什么 情况 下 哪 种 方 
法 更 好 的 问题 ， 读 者 需要 综合 考虑 输入 数据 、 性 能 需求 以 及 是 否 具备 编写 
处 理 代码 的 条 件 等 因素 ， 然 后 决定 采用 哪 种 办 法 。 


6.11 小 结 


本 革 中 ， 我 们 人 为 制造 了 许多 破坏 。 希 望 你 永远 不 会 在 同一 天 遇 到 如 此 多 
Hadoop 集 群 故障 。 通 过 学 习 处 理 这 些 故障 ， 你 会 掌握 一 些 关 键 技术 。 


通常 ， 不 必 害 怕 Hadoop 的 组 件 发 生 故 障 。 尤 其 是 在 大 规模 集群 中 ， 一 些 组 
件 或 主机 发 生 故 障 是 司空 见 惯 的 事 ，Hadoop 在 设计 之 初 就 考虑 到 了 这 种 情 
况 并 提出 了 相应 的 处 理 方法 。HDFS 不 仪 负责 存储 数据 ， 还 管理 着 每 个 数据 
块 的 副本 。 在 DataNode 进 程 意外 结束 时 ，HDFS 会 安排 生成 新 的 副本 。 


MapReduce 作 业 是 无 状态 的 。 如 果菜 个 TaskTracker 执 行 的 任务 发 生 故 障 ， 通 
常 只 需 在 另外 的 节点 上 重新 执行 相同 任务 。 这 个 方法 也 可 用 于 防止 发 生 故 
障 的 主机 拖 慢 整个 作业 的 进度 。 


HDFS 和 MapReduce 主 下 点 的 故障 更 为 严重 。 特 别 是 ，NameNode 进 程 保存 
关键 数据 ， 必 须 保 证 在 它 发 生 故 障 时 有 一 个 新 NameNode 进 程 
ZYE e 


通常 来 说 ， 硬 件 故 障 看 上 去 与 前 面 所 说 的 故障 比较 接近 ， 但 要 留意 发 生 关 
联 故 障 的 可 能 性 。 如 采 软 件 错误 导致 任务 故障 ，Hadoop 会 按照 设置 限 值 重 
人 尽管 它 会 带 来 


现在 我 们 已 学 习 了 如 何 处 理 集群 故障 ， 下 一 章 我 们 将 介绍 集群 设置 、 健 康 
状况 和 集群 维护 方面 可 能 遇 到 的 问题 。 


第 7 章 ”系统 运行 与 维护 


我 们 不 能 光 古 在 Hadoop 和 集群 上 运行 写 好 的 程序 进行 养 能 数据 分 析 ， 同 时 
也 得 负责 维护 集群 ， 做 好 数据 处 理 的 准备 工作 。 


本 章 包括 以 下 内 容 : 
。 讨论 更 多 的 Hadoop 配 置 属性 ; 
。 如 何 挑 选集 群 硬 件 ; 
e Hadoop 安 全 机 制 的 工作 原理 ; 


管理 NameNode; 


管理 HDFS; 
。 管理 MapReduce; 
。 扩展 集群 规模 。 


尽管 对 上 述 话 题 的 讨论 都 只 停留 在 操作 层 面 ， 但 是 我 们 依然 可 以 通过 学 习 
这 些 内 容 ， 研 究 一 些 从 未 尝试 的 Hadoop 功 能 。 因 此 ， 即 使 读者 并 不 需要 亲 
目 管理 集群 ， 这 些 信息 也 是 有 用 的 。 


7.1 关于 EMR 的 说 明 


使 用 Amazon Web Services 之 类 的 云 服 务 的 好 处 之 一 是 ， 云 服务 提供 者 负责 
大 部 分 系统 维护 工作 。 EMko eE TOTEE RP FE ASadoop 
集群 〈 非 永久 作业 流 ) ， 也 可 以 创建 长 期 运行 的 执行 多 个 作业 的 集群 CK 
久 作 业 流 ) 。 当 使 用 非 永久 作业 流 时 ， 在 很 大 程度 上 ， 底层 Hadcop 集 群 的 
配置 和 运行 方式 对 用 户 是 不 可 见 的 。 因 此 ， 使 用 非 永久 作业 流 的 用 户 不 需 
要 考虑 本 章 的 很 多 话题 。 如 果 用 户 使 用 EMR 执 行 永 久 作业 流 ， 那 么 就 和 本 
章 的 多 个 话题 (并 非 全 部 话题 相关 。 


一 般 来 讲 ， 本 章 讨论 的 是 本 地 Hadoop 集 群 。 如 采用 户 需 要 重新 配置 永久 作 
业 流 ， 按 照 第 3 章 的 内 容 设 置 相同 的 Hadoop 属 性 即 可 。 


7.2 ”Hadoop 配 置 属性 


在 运行 集群 之 前 ， 我 们 来 讨论 一 下 Hadoop 的 配置 属性 。 一 直 以 来 ， 我 们 介 
绍 了 很 多 Hadoop 的 配置 属性 ， 但 还 有 一 些 其 他 内 容 值得 深入 思考 。 


默认 值 


让 Hadoop 痢 用 户 感到 最 为 困惑 的 就 是 配置 属性 太 多 。 它 们 包含 在 哪个 文件 
里 面 ? 它们 是 什么 意思 ? 它们 的 默认 值 是 什么 ? 


如 果 你 使 用 的 是 Hadoop 的 完整 版 本 ， 或 者 说 不 仅仅 是 二 进 制 版 本 ， 下 面 这 
些 xXML 文 件 会 回答 你 的 问题 。 


e Hadoop/src/core/core-default.xml 


。 Hadoop/src/hdfs/hdfs-default.xml 


e Hadoop/src/mapred/mapred-default.xml 


7.3 ”实践 环节 :浏览 默认 属性 


幸运 的 是 ，XML 文 档 不 是 查看 这 些 黑 认 值 的 唯一 选择 ， 我 们 还 可 以 选择 可 
读 性 更 强 的 HTML 版 本 。 下 面 我 们 将 快速 浏览 HTML 版 的 默认 配置 。 


Hadoop 二 进 制 版 中 不 包含 这 些 HTML 文 件 。 如 果 读 者 使 用 的 正 是 二 进 制版 
的 Hadoop 安 装 包 ， 也 可 以 在 Hadoop 了 网 站 上 找到 这 些 文件 。 


1. 使 用 浏览 器 打开 Hadoop 安 装 路 径 下 的 docs/core-default ,html X 
件 ， 并 浏览 其 内 容 。 相 应 的 页 面 如 下 图 所 示 。 


UA hadoap 0207\dors core -default.himi - Windows Internet Explorer 


^. D-ETTIDIDCUTUNTT EB 
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pame value 
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hadoop http filer mitsaszers 


1. 通过 类 似 方 法 浏览 其 他 两 个 文件 。 
%o Hadoop/docs/hdfs-default.html 


%o Hadoop/docs/mapred-default.html 


原理 分 析 


如 你 所 见 ， 每 个 属性 都 包含 名 称 、 默 认 值 及 简要 描述 。 还 会 看 到 ， 确 实 有 
很 多 配置 属性 。 现 在 别 想 着 能 理解 所 有 属性 的 含义 ， 但 要 花 点 时 间 了 解 
Hadoop 文 持 的 目 定义 类 型 。 


7.3.4. 附加 的 属性 元 素 
刚才 ， 我 们 设置 配置 文件 中 的 属性 时 用 到 了 XML 元 素 ， 它 们 的 格式 如 下 所 


Zo 


«property» 
«name-the.property.namec/name» 
«value»The property value«c/value» 
«/property» 


MEN 


我 们 可 以 增加 两 个 可 选 的 XML 元 素 ， 它 们 是 description final ° E 
用 了 上 壕 两 个 附加 元 素 的 完整 属性 应 如 下 所 示 。 


<property> 
<name>the.property.name</name> 
<value>The default property value</value> 


<description>A textual description of the property</description> 


<final>Boolean</final> 
</property> 


description 元 素 很 明显 ， 无 需 太 多 解释 ， 使 用 它 可 以 为 HTML 文 件 中 的 每 个 
属性 提供 描述 性 文本 。 


final 元 素 的 含义 与 它 在 Java 中 的 含义 类 似 : 用 户 无 法 使 用 其 他 文件 中 指 
定 的 属性 值 改 写 包含 final 元 素 的 属性 的 值 ， 也 没有 其 他 方法 可 以 履 童 该 
属性 。 稍 后 我 们 会 看 到 这 样 的 例子 。 在 关系 到 集群 性 能 、 完 整 性 、 安 全 性 
或 由 于 其 他 原因 ， 用 户 和 希望 在 整个 集群 中 使 用 同一 个 属性 值 的 情况 下 、 可 
以 在 这 些 属性 中 使 用 final 70:8 9 


7.3.2 ”默认 存储 位 置 


用 户 可 以 通过 配置 存储 位 置 这 一 属性 ， 改 变 Hadoop 在 本 地 硬盘 和 HDFS 上 的 
数据 存储 位 置 。hadoop .tmp ,dir 是 其 他 属性 的 基础 ， 它 是 所 有 Hadoop 文 
件 的 根 目 录 ， 其 默认 值 为 /tmp e 


遗憾 的 是 ， 包 括 Ubuntu 在 内 的 许多 Linux 版 本 在 每 次 重启 时 都 会 清空 该 目 永 
的 内 容 。 这 就 意味 着 ， 如 果 用 户 不 修改 这 个 属性 的 值 ， 就 会 在 下 次 重启 时 
丢失 所 有 HDFS 数 据 。 因 此 ， 有 必要 像 下 面 这 样 改写 core-site.xml 文件 
中 的 hadoop ,tmp ,dir 属性 的 值 。 


<property> 
«name-hadoop.tmp.dirc/name» 
«value»/var/lib/hadoop«c/value» 


«/property» 


别 生 了 ， 要 确保 Hadoop 用 户 对 该 位 置 具有 写 入 权限 。 同 时 ， 该 目 永 所 在 的 
硬盘 有 充足 空间 。 稍 后 你 会 看 到 ， 有 许多 其 他 属性 可 以 更 细 粒 度 地 控制 特 


定 类 型 数据 的 存储 位 置 。 

7.3.3 ”设置 Hadoop 属 性 的 几 种 方式 

刚才 ， 我 们 使 用 了 配置 文件 对 Hadoop 的 属性 值 进行 设置 。 这 是 一 种 设置 
Hadoop 配 置 属性 的 有 效 途 人 径 ， 但 如 有 果 我 们 想 试 着 找 出 某 个 属性 的 最 佳 值 ， 
或 者 需要 在 执行 某 一 作业 的 时 候 设置 特殊 值 ， 这 种 方法 就 显得 有 点 繁琐 。 


我 们 可 以 使 用 JobCconf 类 编写 程序 为 正在 运行 的 作业 设置 配置 属性 。 该 类 
文 持 两 种 函数 : 一 类 函数 用 D na oe 比如 我 们 曾 看 到 的 
设置 作业 名 称 、 输 入 输出 格式 及 其 他 属性 的 值 。 另 一 种 函数 用 来 设置 作业 
的 map 和 reduce 任 务 数 等 。 


此 外 ,还 有 一 些 通 用 方法 ; 如 下 有 所 示 % 


e Void set(String key, String value); 


e Void setIfUnset(String key, String value); 
e Void setBoolean( String key, Boolean value); 
。 Void setInt(String key, int value); 


这 些 函 数 的 使 用 更 为 灵活 ， 用 户 无 需 为 每 个 要 修改 的 属性 都 创建 一 个 专用 
方法 。 然 而 ， 这 些 函 数 都 缺少 编译 时 检查 机 制 。 这 就 意味 着 ， 如 果 使 用 一 
个 无 效 的 属性 名 或 为 某 个 属性 指定 了 错误 类 型 ， 可 能 直到 函数 运行 时 才 会 
发 现 这 些 问题 。 


提示 : ”用户 既 可 以 编写 程序 来 设置 属性 值 ， 也 可 以 在 配置 文件 中 设置 属 
性 值 。 这 就 是 为 配置 属性 设计 final 元 素 的 一 个 重要 原因 。 假 如 用 户 不 


希望 某 些 属性 的 值 被 提交 的 MapReduce 作 业 和 覆盖 ， 就 需要 在 主 配 置 文件 中 
为 这 些 属性 添加 final 元 素 。 


74 ”集群 设置 
在 学 习 如 何 维护 集群 ， 使 其 保持 运转 之 前 ， 我 们 需要 首先 研究 如 何 设置 人 


7.4.1 ”为 集群 配备 多 少 台 主机 


在 考虑 Hadoop 新 集群 时 ， 第 一 个 问题 束 是 首次 为 该 集群 配备 多 少 台 主机 。 
我 们 知道 ， 随 着 业务 所 需 计算 能 力 的 增长 ， 可 以 在 集群 中 新 增 节 点 ， 但 我 
们 也 想 在 设计 之 初 即 分 配合 适 的 主机 数 ， 免 得 马上 就 需要 增加 新 节点 。 


这 个 问题 还 真是 没有 明确 的 答案 ， 它 在 很 大 程度 上 依赖 于 要 处 理 的 数据 集 
规模 和 要 执行 的 作业 的 复杂 程度 。 我 们 只 能 近似 地 说 ， 市 点 数 至 少 要 与 复 
制 因子 n 持平 。 请 记 住 ， 节 点 是 会 发 生 故 障 的 ， 如 果 集群 中 的 节点 数 等 于 复 
制 因 于， 那么 任意 一 个 节点 故障 都 会 造成 数据 块 的 副本 数 低 于 复制 因子 。 
在 大 部 分 由 数 十 个 或 数 百 个 节点 组 成 的 集群 中 ， 这 个 问题 不 足 为 虑 。 但 在 
很 小 的 集群 中 ， 如 有 果 复 制 因子 是 3， 最 安全 的 方案 是 用 5 人 台 主 机 构建 集群 。 


1. 计算 节点 的 可 用 空间 

确定 集群 所 需 节 点 的 直观 方法 是 ， 评 佑 要 用 该 集群 处 理 的 数据 集 的 规模 。 

e TB 数据 ， 并 且 主 机 硬盘 空间 为 2TB， 结 论 就 是 至 少 需要 5 人 台 
这 是 不 对 的 ， 因 为 它 没 有 把 复制 因子 和 临时 空间 的 因素 考虑 进去 。 回 想 一 
下 ，mapper 的 输出 被 写 到 本 地 硬盘 ， 再 被 reducer 读 取 。 我 们 需要 把 这 个 较 
大 的 硬盘 使 用 率 考 虑 进去 。 

一 种 好 的 做 法 是 ， 假 设 复制 因 子 为 3， 同 时 临时 空间 要 占用 25% 的 硬盘 原始 
空间 。 基 于 上 述 假设 ， 要 在 主机 硬盘 空间 为 2 TB 的 集群 上 人 处理 10 TB 数据 ， 

所 需 主机 数 的 计算 方法 如 下 。 


。 用 主机 存储 空间 总 量 除 以 复制 因子 。 
2 TB/3 = 666 GB 


。 在 此 基础 上 减 去 25% 的 临时 数据 存储 空间 。 666 GB * 0.75 = 500 GB 


。 因 此， 每 个 硬盘 存储 空间 为 2TB 的 节点 只 有 大 约 500 GB (0.5 TB) 的 
可 用 空间 。 


。 数 据 集 规模 除 以 该 值 ， 结 果 即 为 所 需 的 节点 数 。 
10 TB / 500 GB = 20 


z 处 理 10 TB 数据 的 集群 最 少 需要 20 个 节点 ， 它 是 我 们 初步 估算 值 的 4 


所 需 节点 数 多 于 预期 ， 这 种 情况 很 普遍 。 在 考虑 主机 规格 的 时 候 要 记 住 这 
个 前 提 ， 本 章 “ 硬 件 选 型 "会 讲 到 这 个 问题 。 


2. 主 节 点 的 位 置 


下 一 个 问题 是 ， 在 哪 台 主 机 上 运行 NameNode、JobTracker 和 
SecondaryNameNode。 我 们 曾 看 到 过 ，DataNode 可 以 与 NameNode 运 行 在 同 
一 台 主 机 上 ，TaskTracker 也 可 以 和 JobTracker 共 同 运 行 在 一 台 主 机 上 ， 但 这 
并 不 是 产品 集群 的 主流 设置 。 


我 们 将 看 到 ，NameNode 和 SecondaryNameNode 有 一 些 特殊 的 资源 需求 ， 所 
有 可 能 有 影响 这 两 个 主 节点 性 能 的 因素 都 可 能 拖 慢 整个 集群 的 运算 性 能 。 


最 理想 的 情况 是 ， 在 专用 主机 上 运行 NameNode、JobTracker 和 
SecondaryNameNode。 然 而 ， 在 规模 很 小 的 集群 中 ， 这 将 明显 增加 硬件 成 
本 ， 却 不 一 定 能 够 从 中 充分 受益 。 


如 果 可 能 的 话 ， 首 先 应 当 在 一 台 专 用 主机 上 运行 NameNode、JobTracker 和 
SecondaryNameNode， 不 要 在 这 台 专 用 主机 上 再 运行 任何 DataNode 或 者 
TaskTracker 井 程 。 随 着 集群 规模 增长 ， 可 以 在 集群 中 新 增 一 全 服务 需 主 

机 ， 并 把 NameNode 迁 移 到 该 主机 ， 让 JobTracker 和 SecondaryNameNode 运 行 
在 同一 台 主机 上 。 最 后 ， 随 着 集群 规模 的 进一步 增长 ， 有 必要 再 把 
JobTracker 和 SecondaryNameNode 分 开 ， 分 别 在 单独 的 主机 上 运行 。 


提示 : ”就 像 在 第 6 章 中 所 讨论 的 ，Hadoop 2.0 会 把 Secondary NameNode 分 
为 Backup NameNode 和 Checkpoint NameNode。 最 好 分 别 在 不 同 的 专用 主 
机 上 运行 Backup NameNode 和 Checkpoint NameNode， 但 在 条 件 不 足 的 情 
况 下 ， 至 少 要 保证 Backup NameNode 运 行 在 一 台 专 用 主机 上 ° 


3. 硬件 选 型 


在 确定 节点 所 用 硬件 规格 时 ， 不 能 只 考虑 要 存储 的 数据 量 大 小 。 除 此 之 

外 ， 还 要 考虑 节点 的 处 理 能 力 、 内 存 大 小 、 存 储 类 型 以 及 网 络 市 宽 。 

我 们 讨论 了 很 多 为 Hadoop 集 群 选 用 硬件 的 内 容 ， 再 次 声明 ， 没 有 一 个 答案 
适用 于 各 种 情况 。MapReduce 作 业 的 类 型 在 硬件 选 型 中 起 着 决定 性 作用 ,无 
其 是 ， 这 些 作 业 是 否 受 限 于 CPU、 内 存 、IO 或 其 他 硬件 的 性 能 。 

4. 处 理 器 /内 存 /硬盘 空间 比 


考虑 作业 十 否 受 限 于 处 理 右 、 内 存 或 者 MO 的 一 个 好 办 法 是 检查 CPU/ 内 人 存 / 硬 
盘 空 间 比 。 例 如 ， 在 考虑 CPU/ 内 存 /硬盘 空间 比 的 情况 下 ， 我 们 认为 一 合 有 


着 8 GB 内 存 、2 TB 硬盘 的 四 核 主机 相当 于 一 台 内 存 大 小 为 4GB、 硬 盘 大 小 
为 1 TB 的 双核 主机 。 


然后 ， 检 查 一 下 将 要 运行 的 MapReduce 作 业 的 类 型 ， 这 样 的 比率 是 否 合适 ? 
0 种 比较 平衡 的 配 


当然 ， 最 好 通过 原型 设计 和 各 种 指标 来 评 信 这 个 问题 ,但 有 了 时候 这 些 方法 
却 行 不 通 。 如 果 行 不 通 的 话 ， 考 虑 一 下 作业 的 哪个 阶段 最 耗资 源 。 例 如 ， 
我 们 曾 见 过 一 些 MO 密 集 型 作业 ， 它 们 从 硬盘 读 取 数 据 ， 执 行 简 单 的 转换 之 
后 就 把 结果 写 回 和 硬盘。 如果 我 们 的 工作 任务 具有 这 样 的 特点 ， 可 能 需要 使 
用 存储 空间 更 大 的 硬盘 《尤其 是 在 通过 使 用 多 个 硬盘 增加 IO 的 情况 下 
时 ) ， 可 以 相应 地 减少 CPU 和 内 存 。 


相反 ， 执 行 繁重 的 数字 运算 任务 的 作业 需要 更 多 的 CPU， 那 些 创建 或 使 用 
大 型 数据 结构 的 作业 则 需要 更 大 的 内 存 。 


也 可 以 从 作业 的 限制 因素 的 角度 考虑 这 个 问题 。 运 行 中 的 作业 是 计算 密集 
型 《处 理 器 满 功率 运作 、 内 存 和 IO 过 剩 ) 、 内 存 密 集 型 (物理 内 存 已 满 并 
有 部 分 数据 交换 到 硬盘 、CPU 和 IO 过 剩 ) , 或 1O 密 集 型 (CPU 和 内 存 过 
剩 ， 但 从 硬盘 读 写 数 据 的 速度 已 达到 最 大 ) 中 的 哪 一 类 ? 是 否 能 通过 增加 
相应 的 硬件 来 改善 这 些 状况 ? 


当然 ， 用 户 需 要 不 断 调整 并 优化 硬件 配置 ， 因 为 一 旦 解决 了 某 个 限制 因素 
后 ， 男 一 个 原本 不 明显 的 问题 束 会 其 露出 来 。 所 以 一 定 要 记 住 ， 整 体 思路 
征 在 作业 应 用 场景 中 达到 最 佳 的 性 能 配置 。 


假如 你 确实 不 知道 作业 的 性 能 特点 ， 又 该 怎么 办 呢 ? 理想 情况 是 ， 基 于 现 
有 硬件 进行 原型 设计 ， 并 使 用 该 原型 系统 辅助 决策 。 但 是 ， 假 如 这 些 都 无 
法 实现 ， 用 户 只 能 不 断 调整 配置 并 通过 实验 来 验证 某 种 配置 是 否 合适 。i 
记 住 ，Hadoop 文 持 使 用 不 同 规格 的 硬件 ， 尽 管 统一 规格 的 硬件 最 终 会 倘 化 
集群 的 创建 ， 所 以 搭建 一 个 最 小 规模 的 集群 并 评估 人 硬件 是 否 合适 。 这 些 评 
佑 结论 可 以 为 购买 新 主机 或 升级 现 有 硬件 提供 辅助 信息 。 


5. 基于 EMR 进 行 原型 设计 


回想 一 下 ， 在 弹性 MapReduce 集 群 中 配置 作业 时 ， 我 们 会 为 主 厄 点 、 
DataNode 和 TaskTracker 选 择 不 同类 别 的 硬件 。 假 如 你 打算 在 EMR 上 运行 作 
业 ，EMR 平 台 提 供 了 调整 硬件 配置 的 内 置 方案 ， 可 以 找到 既 满 足 价格 预算 
又 符合 执行 速度 要 求 的 硬件 。 


~ 


du 


但 是 ， 假 如 读者 不 打算 在 EMR 上 运行 作业 ， 还 可 以 把 它 用 作 重 要 的 原型 设 
计 平 台 。 假 如 用 户 在 为 集群 选 配 硬件 却 不 知道 作业 的 性 能 特点 ， 可 以 考虑 
在 EMR 上 进行 原型 设计 以 深入 理解 作业 特点 。 尽 管 这 样 可 能 会 文 付 一 些 未 
Ron EMNEOUSM, 但 这 些 费 用 远 远 小 于 天 了 一 堆 完 全 不 合适 的 便 


7.4.2 ”特殊 节点 的 需求 


并 非 所 有 主机 的 硬件 需求 完全 相同 。 尤 其 是 ， 承 载 NameNode 进 程 的 主机 的 
硬件 可 能 与 运行 DataNode 和 TaskTracker 的 主机 硬件 完全 不 同 。 


回想 一 下 ， NameNode 在 内 存 中 维护 了 HDEFS 文 件 系统 ， 文 件 、 路 径 、 数 据 
块 、 节 点 之 间 的 映射 关系 ， 以 及 与 上 述 内 容 相 关 的 多 种 元 数据 。 这 就 意味 
着 ，NameNode 可 能 会 受 限于 内 存 ， 与 其 他 主机 相 比 ， 它 需要 更 大 的 内 存 ， 
尤其 是 在 集群 规模 很 大 或 HDFS 上 存储 了 大 量 文件 时 ，NameNode 对 内 存 的 
需求 更 为 强烈 。 我 们 通常 为 DataNode 或 TaskTracker 选 配 16 GB 内 存 ， 但 却 需 
要 为 NameNode 选 配 64 GB 的 内 存 ， 甚 至 更 大 。 如 案 NameNode 甩 物理 内 存 已 
耗 尽 并 开始 使 用 虚拟 内 存 ， 这 将 严重 影响 集群 性 能 


然而 ， 尽 管 对 物理 内 存 而 言 ，64 GB 已 不 是 一 个 小 数字 ， 但 对 现在 的 硬盘 衬 
间 而 言 ， 这 个 数字 还 是 太 小 。 由 于 NameNode 世 点 的 便 盘 只 负责 存储 文件 系 
统 镜像 ， 不 需要 为 其 配备 常用 于 DataNode 的 大 容量 硬盘 。 我 们 更 关注 的 是 

NameNode 的 可 靠 性 ， 所 以 需要 按照 元 余 配置 的 要 求 为 其 配备 多 块 硬盘 。 因 
ur M Ll M 目的 ， 与 大 容量 硬盘 相 比 ，NameNode 主 机 更 喜欢 


总 的 来 讲 ，NameNode 主 机 与 集群 中 其 余 主 机 不 同 。 这 也 是 我 们 之 前 建议 只 
预算 允许 ， B fi NameNodei t ig 到 专用 主机 上 的 原因 ， 因 为 它 的 特殊 硬件 


提示 :”SecondaryNameNode (Hadoop2.0 中 的 CheckpointrNameNode 和 

BackupNameNode) 对 硬件 的 需求 与 NameNode 相 同 。 因 为 它 起 的 是 备份 奉 

代 作 用 ， 用 户 可 以 在 更 通用 的 主机 上 运行 SecondaryNameNode 。 但 如 果 主 市 

22005 用 户 需 要 将 NameNode 迁 移 到 备用 方 点 时 ， 通 用 硬件 可 能 会 带 
iili: 


7.4.3 不 同类 型 的 存储 系统 


尽管 用 户 可 能 在 “处 理 器 、 内 存 、 硬 盘存 储 空间 或 O 的 相对 重要 性 ”这 一 问 
题 上 坚持 自己 的 观点 ， 这 些 争论 通常 都 以 应 用 程序 的 需求 、 硬 件 特点 和 指 


i 


标 为 基础 。 但 是 ， 在 讨论 选用 哪 种 类 型 的 存储 系统 时 ， 人 们 经 常会 因为 根 
深 蒂 固 的 观念 而 发 生 激烈 的 争执 。 


1. 通用 存储 与 企业 级 存储 的 对 比 


第 一 个 争议 是 选用 通用 硬盘 还 是 选用 企业 用 户 硬 盘 呢 ? 哪 种 选择 更 有 意 
义 ? 前 者 (主要 是 SATA 硬 盘 ) 体积 较 大 ， 价 格 更 便宜 ， 读 写 速度 相对 较 
慢 ， 平 均 无 故障 时 间 (MTBF) 更 短 。 企 业 级 硬盘 使 用 了 SAS 或 光纤 通道 技 
术 ， 总 体 上 更 为 小 巧 ， 价 格 更 高 ， 读 写 更 快 ， 平 均 无 故障 时 间 较 长 。 


2. 独立 硬盘 与 RAID 的 对 比 


第 二 个 问题 是 选择 哪 种 硬盘 配置 方式 。 企 业 级 的 解决 方案 是 使 用 廉价 磁盘 
隐 余 阵列 (RAID) 把 多 个 硬 表 聚合 成 一 个 独立 的 逻辑 存储 设备 。 它 以 损失 
和 
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另 一 种 方案 是 独立 使 用 每 个 硬 强 ， 以 达到 总 体 存 储 能 力 和 IO 最 大 化 ， 但 其 
缺点 是 ， 在 菏 个 硬盘 发 生 故 障 的 情况 下 ， 主 机 束 会 宕 机 。 


3. 综合 考虑 


在 许多 方面 ，Hadoop 系 统 会 假设 硬件 故障 不 可 避免 。 从 这 个 角度 来 看 ， 可 
能 不 需要 使 用 传统 的 企业 关注 的 存储 功能 。 反 而 可 以 使 用 许多 大 体积 的 廉 
价 硬盘 增 大 整体 存储 能 力 ， 通 过 并 行 读 写 提高 1/O 否 吐 率 。 单 个 硬盘 的 故障 
可 能 导致 主机 失败 ， 但 我 们 已 学 习 过 ， 集 群 会 处 理 这 个 故障 。 


这 是 一 个 非常 有 效 的 方案 ， 它 在 许多 情况 下 发 挥 了 重要 作用 。 但 是 ， 这 个 
方案 忽视 了 修复 故障 主机 的 成 本 。 如 果 用 户 使 用 的 集群 就 在 隔壁 房间 ， 并 
旦 手头 上 有 许多 内 置 硬盘 ， 主 机 修复 工作 惑 是 一 个 不 耗 时 的 、 易 实现 的 、 
低 成 本 的 任务 。 但 是 ， 如 果 用 户 集 群 运行 在 商业 托管 设备 上 ， 亲 目 动 手 的 
维护 成 本 相对 较 高 。 如 果 用 户 使 用 的 是 完全 托管 的 服务 器 ， 需 要 向 服务 提 
供 者 文 付 维护 费用 ， 那 么 维护 成 本 会 更 高 。 在 这 种 情况 下 ， 虽 然 使 用 RAID 
0 aa aaa 
得 考虑 的 方案 。 


4. 网 络 存储 系统 


最 没 道理 的 就 是 使 用 网 络 存 储 系统 作为 主 集群 存储 系统 。 不 管 是 通过 SAN 
(Storage Area Network， 存 储 区 域 网 络 ) 技术 实现 的 数据 块 存储 还 是 通过 
NFS (Network File System ， 网 络 文件 系统 ) 或 类 似 协 议 实 现 的 基于 文件 的 
网 络 存 储 ， 这 些 方 案 都 引入 了 一 些 不 必要 的 瓶颈 问题 和 可 能 引发 故障 的 共 

享 设备 ， 从 而 限制 了 Hadoop。 


但 是 ， 茶 些 时 候 ， 由 于 一 些 非 技术 原因 ， 你 不 得 不 采用 类 似 方案 。 并 不 是 
说 采用 这 些 方案 会 导致 Hadoop 停 止 工作 ， 而 是 会 影响 Hadoop 的 运行 速度 以 
及 容错 能 力 。 因 此 ， 用 户 要 能 够 正确 理解 采用 这 些 方案 市 来 的 后 果 。 


7.4.44 ”Hadoop 的 网 络 配 置 


与 它 对 存储 设备 的 支持 相 比 ，Hadoop 对 网 络 设备 的 支持 要 简单 得 多 。 因 
此 ， 与 CPU、 内 存 和 硬盘 选择 相 比 ， 用 户 可 选 的 网 络 设备 硬件 少 之 又 少 。 
目前 ，Hadoop 只 文 持 一 台 网 络 设备 ， 并 且 无 法 把 一 全 主机 上 的 所 有 4 千 兆 以 
太 网 连接 缀 合成 4 千 兆 吞吐 量 。 如 果 用 户 需 要 的 网 络 吞 吐 量 大 于 1 千 兆 ， 除 
非 硬 件 或 操作 系统 可 以 把 多 个 端口 整合 成 Hadoop 服 中 的 一 台 网 络 设备 ， 否 
则 唯一 的 办 法 束 是 使 用 10 和 干粮 以 太 网 设备 。 


1. 数据 块 放置 策略 


我 们 讨论 了 很 多 HDFS 使 用 副本 作为 元 余 备份 的 内 容 ， 但 还 没有 研究 Hadoop 
如 何 决 定 放 置 数据 块 副本 的 位 置 。 


在 大 多 数 传统 服务 器 群 中 ， 各 种 主机 〈 包 括 网 络 设备 和 其 他 设备 ) 都 被 放 
置 在 标准 尺寸 的 机 杷 上， 垂直 地 一 层 一 层 地 堆 蕉 起 来 。 每 个 机 柜 通常 都 有 
一 个 为 其 供电 的 通用 配 电 泌 置 ， 此 外 还 有 一 个 网 络 交 换 器 用 于 将 机 柜上 的 
主机 搂 入 到 更 广泛 的 网 络 。 

基于 这 种 结构 ， 我 们 可 以 确定 三 大 类 故障 类 型 : 

影响 单 台 主机 的 故障 〈 例 如 ，CPU、 内 存 、 和 硬盘、 主板 故障 ) ; 
影响 机 柜上 所 有 主机 的 故障 〈 比 如 ， 供 电压 置 或 交换 机 故障 ) ; 


影响 整个 集群 的 故障 (例如 ， 更 多 电源 或 网 络 故 障 ， 制 冷 或 环境 监测 
系统 运行 中 断 ) 。 


提示 : 请 记 住 ，Hadoop 目 前 不 支持 分 布 于 多 个 数据 中 心 的 集群 ， 因 此 ， 
第 三 类 故障 极 有 可 能 导致 集 群 衣 江 。 


稚 认 情况 下 ，Hadoop 按 照 每 个 节点 都 在 同一 个 物理 机 柜上 那样 处 理 记 点 。 
这 就 意味 着 ， 每 对 主机 之 间 的 带宽 和 时 延 近 似 相 等 ， 并 且 每 个 节点 受 相关 
故障 影响 的 可 能 性 与 其 他 节点 相同 。 


2. 机 柜 认 知 


但 是 ， 如 琳 用 户 使 用 了 多 机 柜 结构 ， 或 采用 了 与 先前 假设 予 盾 的 其 他 配 
置 ， 用 户 可 以 为 每 个 节点 提供 向 Hadoop 报 告 其 所 在 机 柜 ID 的 能 力 。Hadoop 
会 在 安排 副本 位 置 时 考虑 到 这 一 点 。 


在 这 种 设置 中 ，Hadoop 设 法 将 某 个 节点 的 第 一 个 副本 放置 在 该 主机 上 ， 第 
二 个 副本 放置 在 同一 个 机 柜 中 的 男 一 台 主 机 上 ， 第 三 个 副本 放 在 其 他 机 想 
FB Ere. E 9 


这 种 策略 较 好 地 平衡 了 性 能 和 可 用 性 这 两 个 因素 。 在 机 柜 融 有 目 己 的 网 络 
交换 机 时 ， 同 一 机 想 内 部 主机 之 间 的 通信 比 它 与 另 一 机 柜上 主机 通信 的 延 
述 要 小 。 把 两 个 副本 放 在 同一 个 机 想 内 的 主机 上 ， 保 证 了 对 这 些 副 本 的 最 
大 写 入 速度 ， 而 在 机 柜 外 放置 一 个 副本 则 可 在 机 柜 出 现 故 障 的 情况 下 提供 


LI 


JUR 
报告 自身 所 在 机 柜 的 脚本 


如 果 用 户 设置 了 topology .script.file.name 属性 并 把 它 指向 
NameNode 闻 点 上 的 一 个 可 执行 脚本 ，NameNode 会 用 这 个 脚本 确定 每 台 
机 所 在 的 机 柜 ID。 


请 注意 ， 该 属性 需要 用 户 进 行 设置 ， 同 时 可 执行 脚本 只 能 位 于 NameNode 主 
机 。 


NameNode 向 该 脚本 传 入 它 要 调查 的 节点 的 IP 地 址 ， 脚 本 负责 实现 从 节点 IP 
地 址 向 其 所 在 机 柜 名 的 映射 。 


如 琳 没 有 指定 可 执行 脚本 的 位 置 ， 所 有 市 点 都 癌 Hadoop 报 洁 它 们 位 于 同一 
个 默认 机 柜 。 


75 “实践 环节 : 查看 默认 的 机 想 配 置 
我 们 看 一 下 如 何 为 集群 设置 默认 的 机 柜 配置 。 
1. 执 行 以 下 命令 。 


$ Hadoop fsck -rack 


2. 输出 结 采 应 类 似 于 以 下 内 容 。 


Default replication factor: 3 

Average block replication: 3.3045976 
Corrupt blocks: 0 

Missing replicas: 18 (0.5217391 9*) 
Number of data-nodes: 4 

Number of racks: 1 


The filesystem under path '/' is HEALTHY 


原理 分 析 


我 们 既 对 刚才 用 到 的 命令 感 兴 趣 ， 也 对 它 的 输出 感 兴趣 。hadoop fsck 工具 
用 于 检测 并 修复 文件 系统 问题 。 可 以 看 出 ， 该 命令 包含 的 一 些 信息 与 我 们 
常用 的 hadoop dfsadmin 命令 有 些 相似 ， 尽 管 后 者 更 倾 问 于 详细 报告 每 
个 节点 的 状态 ， 而 hadoop fsck 则 是 报告 整个 文件 系统 内 部 构件 信息 。 


hadoop fsck 输 出 的 一 部 分 信息 表明 了 集群 中 的 机 柜 忌 数 。 从 上 例 的 输出 可 以 
看 出 ， 默 认 值 为 1 。 


提示 : ” 上述 命令 是 在 刚刚 用 作 HDFS 故 障 修复 测试 的 集群 上 执行 的 。 这 就 
是 解释 了 为 什么 “average block replication” 和 “under-replicated blocks” 的 值 
显得 有 点 异常 。 


如 有 条 主机 发 生 临 时 性 故障 ， 故 障 修复 后 义 重 新 回 到 Hadoop 集 群 时 ， 可 能 
会 导致 数据 块 的 副本 数量 大 于 复制 因 于 。Hadoop 不 仅 会 增加 副本 以 使 数 
据 块 副本 数量 满足 复制 因子 的 要 求 ， 它 还 会 删 挥 多 余 副 本 使 数据 块 副本 
数量 等 于 复制 因 了 于 。 


7.6 ”实践 环节 :报告 每 台 主 机 所 在 机 想 


我 们 可 以 通过 创建 一 个 为 每 合 主机 获取 机 想 位 置 的 脚本 ， 改进 默认 的 机 柜 


设置 


1. 在 NameNode 主 机 的 Hadoop 用 户主 目录 下 创建 一 个 rack-script.sh 
脚本 ， 其 内 容 如 下 。 请 记 住 将 其 中 IP 地 址 改 为 用 户 所 用 HDFS 节 点 的 
IP° 


&!/bin/bash 
if [ $1 - "10.0.0.101" ]; then 
echo -n "/rack4 " 
else 
echo -n "/default-rack " 
fi 


2. jÉrack-script.sh 脚本 做 成 可 执行 文件 。 


$ chmod +x rack-script.sh 


3. fzNameNodeX- LJ core-site.xml 文件 中 加 入 下 列 属性 。 


<property> 
<name>topology.script.file.name</name> 
<value>/home/Hadoop/rack-script.sh</value> 
</property> 


4. 重启 HDFS ° 


$ start-dfs.sh 


5. 通过 fsck 查看 文件 系统 。 


$ Hadoop fsck -rack 


其 输出 如 下 图 所 示 : 


fadoopGheadnode: = 


Ele Edit View Terminal Help 

hadoop@headnode: ~$ hadoop fsck -rack 

FSCK started by hadoop from /127.0.0.1 for path / at Wed Jan 02 15:02:13 PST 201 
3 

.Status: HEALTHY 

Total size: 75342464 B N 
Total dirs: 3 

Total files: 1 

Total blocks (validated): 18 (avg. block size 4185692 B) 

minimally replicated blocks: 18 (100.0 5) 

Over-replicated blocks: © (0.0 *) 

Under- replicated blocks: O (0.0 x) 

Mis-raplicated blocks: O (0.0 %) 

Default replication factor: 3 

Average block replication: 3.0 


The filesystem under path '/' is HEALTHY 
hadcopaheadnode: ~$ H 


原理 分 析 


首先 ， 我们 创建 了 一 个 脚本 文件 ， 它 为 某 个 节点 返回 “rack1”， 为 其 余 节 点 
返回 默认 值 。 我 们 把 该 脚本 放 到 NameNode 上 ， 并 将 所 需 的 配置 属性 加 入 
NameNodeB'Jcore -site.xml Xf ° 


在 重启 HDFS 之 后 ， 我 们 使 用 hadoop fsck 获得 文件 系统 信息 。 可 以 看 
到 ， 集 群 目 前 被 设置 为 有 两 个 机 柜 。Hadoop 得 知 集群 中 存在 两 个 机 柜 后 ， 
它 会 采用 之 前 介绍 的 更 为 复杂 的 数据 块 放置 策略 。 


技巧 : 使 用 外 部 主机 文件 
一 个 通用 的 办 法 是 使 用 类 似 于 Unix 的 /etc/hosts 的 数据 文件 指定 IP 地 


址 与 机 柜 的 映射 关系 ， 每 行 存储 一 个 映射 。 用 户 可 以 独立 更 新 该 文件 
然后 使 用 rack-awareness 脚 本 读 取 文件 内 容 。 


究竟 什么 是 商用 硬件 


主 我 们 回顾 一 下 集群 中 主机 的 共有 特点 ， 它 们 看 上 去 更 像 是 日 常 使 用 的 组 
洲 服 务 右 还 是 专门 构建 的 高 端 企业 服 务 器 ? 


有 一 部 分 问题 在 于 , “日 用 品 ” 是 一 个 含糊 的 字眼 。 在 茶 个 业务 中 看 来 便宜 
的 商品 对 男 一 个 业务 来 讲 束 可 能 是 坚 华 蜗 档 的 。 我 们 建议 在 选择 人 硬件 时 考 


虑 以 下 几 个 有 要素， 然后 再 愉快 地 选择 。 


。 使 用 这 些 硬件 ， 你 是 否 需要 为 保证 可 靠 性 付出 代价 ， 比 如 再 次 实现 
Hadoop 的 一 些 容错 机 制 ? 


。 付款 购买 的 高 端 醒 件 的 功能 能 否 解决 现实 环境 中 遇 到 的 需求 或 困难 ? 


。 有 没有 验证 过 ， 有 是 购买 高 端 便 件 更 费 钱 ， 还 是 使 用 便宜 的 、 可 知性 稍 
短 的 硬件 并 解决 由 此 帝 来 的 问题 的 花费 更 多 ? 


随 演 测验 : 创建 集群 
问题 1 在 为 Hadoop 新 集群 选择 硬件 时 ， 下 列 哪个 因素 是 最 重要 的 ? 
1. CPU 内 核 数 量 以 及 它们 的 运算 速度 。 
2. 物理 内 存 的 容量 。 
3. ERFARE ° 
4. 硬盘 的 读 写 速度 。 
5. 很 大 程度 上 ， 它 由 工作 量 决定 。 
问题 2 下 列 哪个 原因 导致 你 不 愿意 在 集群 中 采用 网 络 存储 方案 ? 
1. 它 可 能 引入 一 些 新 的 单 点 失效 问题 。 


2. 它 有 一 些 几 余 备 份 和 容错 方法 ， 由 于 Hadoop 已 经 提供 了 容错 机 制 ， 这 
些 特 性 是 不 必要 的 。 


3. 这 种 单个 设备 的 性 能 不 如 同时 使 用 多 个 本 地 硬盘 的 性 能 好 。 

4. 上 述 选 项 都 正确 。 
问题 3 假如 你 需要 在 集群 上 处 理 10 TB 数据 。MapReduce 主 作业 负责 处 理 金 
融 交 易 ， 用 这 些 交 易 生 成 数据 统计 模型 并 预测 未 来 。 你 将 为 集群 选择 哪 种 
硬件 配置 方案 ? 

1. 20 台 配 有 双核 处 理 器 ，4 GB 内 存 以 及 500 GB 硬盘 的 主机 。 


2.30 & EU OU AES, 8 GB 内 存 以 及 2 块 500 GB 硬盘 的 主机 。 


3. 30 人 台 配 有 四 核 处 理 器 ，8 GB 内 存 以 及 1 块 1 TB 硬盘 的 主机 。 
4. 40 台 配 有 四 核 处 理 器 ，16 GB 内 存 以 及 4 块 1 TB 硬盘 的 主机 。 


7.7 ”集群 访问 控制 


一 旦 饶 新 的 集群 安装 并 运行 起 来 之 后 ， 用 户 需 要 考虑 访问 控制 以 及 安全 性 
问题 。 谁 可 以 访问 集群 上 的 数据 ? 是 否 有 一 些 敏 感 数据 不 希望 整个 用 户 群 
都 可 以 访问 ? 

Hadoop 安 全 模型 

Hadoop 一 直 都 缺乏 安全 机 制 ， 直 到 最 近 ， 才 出 现 了 一 种 充其量 只 能 称 

为 “标记 ”的 安全 模型 。 cin t 与 其 创建 者 及 所 属 用 户 组 关联 起 来 ， 


但 却 很 少 验证 特定 的 客户 端 连接 。 强 安全 机 制 不 仅 会 管理 文件 标记 ， 而 且 
会 验证 所 有 连接 到 Hadoop 的 用 户 吴 份 。 


7.8 ”实践 环节 : 展示 Hadoop 的 默认 安全 机 制 


我 们 曾 展示 过 一 些 文件 列表 ， 这 些 文件 的 属性 包括 所 属 用 户 及 用 户 组 的 多 
称 。 但 是 ， 我 们 未 曾 研究 它们 的 真正 意义 。 


1. 在 hadoop 用 户 的 根 目录 下 创建 一 个 测试 文本 文件 。 


$ echo "I can read this!" > security-test.txt 


$ hadoop fs -put security-test.txt security-test.txt 


2. 更 改 文件 权限 ， 使 其 只 能 被 文件 创建 者 访问 。 


$ hadoop fs -chmod 700 security-test.txt 
$ hadoop fs -1s 


上 述 命 令 的 输出 结果 如 下 图 所 示 。 


Ele Edit View Terminal Help 


hadoopQheadnode:-$ hadoop fs -ls 

Found 2 items 

-DWeR 3 hadoop supergroup 16 2013-01-02 15:14 /user/hadoop/security-test.t 
3 hadoop supergroup 75342464 2013-01-02 14:56 /user/hadoop/ufo.tsv 

"iis oopG Sed adi tf -$ 


3. 确认 你 仍然 可 以 读 取 该 文件 内 容 。 


$ hadoop fs -cat security-test.txt 


你 会 在 屏 医 上 看 到 下 面 这 行 字 。 


I can read this! 


连接 到 集群 中 的 另 一 个 节点 并 试 着 读 取 文件 内 容 。 


$ ssh node2 
$ hadoop fs -cat security-test.txt 


你 会 在 屏 医 上 看 到 下 面 这 行 字 。 


I can read this! 


5. 从 其 他 节点 退 出 系统 


$ exit 


6. 为 其 他 用 户 创 建 根 目 录 ， 并 赋予 它们 所 有 权 。 


$ hadoop m[Kfs -mkdir /user/garry 
$ hadoop fs -chown garry /user/garry 
$ hadoop fs -ls /user 


| | 


上 上 述 命 令 的 结 采 如 下 图 所 示 : 


"hadoopsheadrnode: ~ 
Fle Edt View Terminal Help 
hadoopüheadnode:-$ hadoop fs -ls /user 
Found 2 items 
drwxr-xr-x - garry supergroup O 2013-01-02 15:18 /user/garry 


drwxr-xr-x - hadoop supergroup O 2013-01-02 15:14 /user/hadoop 
hadoopQheadnode : -$ 1 


7. 切换 到 garry 用 户 。 


$ su garry 


8. 试 着 读 取 hadoop 用 户 根 目录 下 的 测试 文件 。 


$ hadoop/bin/hadoop fs -cat /user/hadoop/security-test.txt 

cat: org.apache.hadoop.security.AccessControlException: Permission 
denied: user-garry, access-READ, inode-'security-test.txt":hadoop: 
supergroup:rw------- 


9. 把 hadoop 目 录 下 的 security-test.txt 文 件 复制 到 garry 用 户 根 目录 ， 并 设置 
文件 访问 权限 ， 使 其 只 能 被 创建 者 访问 。 


$ Hadoop/bin/Hadoop fs -put security-test.txt security-test.txt 
$ Hadoop/bin/Hadoop fs -chmod 700 security-test.txt 
$ hadoop/bin/hadoop fs -1s 


EMALEA P ELS: 


garrysheadnode: ~ 
File Edi view Terminal Help 
garryQheadnode:-$ hadoop fs -ls 


3 garry supergroup 17 2013-01-02 15:40 /user/garry/security-test.txt 
e:-$ 


10. 确认 garry 用 户 可 以 读 取 该 文件 内 容 。 


$ hadoop/bin/hadoop fs -cat security-test.txt 


VR TEBESE EGRE PDA ° 


I can read this! 


11. 注销 系统 并 返回 到 hadoop 用 户 。 


me 


$ exit 


12. 等 试 访问 garry 用 户 根 目录 下 的 security-test.txt 文 件 。 


$ hadoop fs -cat /user/garry/security-test.txt 


你 会 在 屏 人 右上 看 到 下 面 这 行 字 。 


I can read this! 


原理 分 析 


我 们 首先 使 用 hadoop 用 户 在 HDFS 的 根 目 录 下 创建 一 个 测试 文件 。 接 下 来 ， 
我 们 使 用 hadoop fs 命令 的 -chmod 选项 修改 文件 权限 ， 之 前 从 未 见 过 该 
选项 。 它 与 标准 Unix 的 chmod 工具 非常 相似 ， 可 以 为 文件 创建 者 、 某 一 用 
户 组 中 所 有 成 员 以 及 所 有 用 户 指定 文件 的 读 / 写 /执行 权限 。 


接着 ， 我 们 再 次 使 用 hadoop 用 户 登 录 到 另 一 台 主 机 并 试图 访问 文件 。 盈 不 
奇怪 ， 文 件 访问 成 功 。 但 是 为 什么 呢 ? Hadoop 赁 什么 来 判断 用 户 身份 并 决 
定 是 否 允 许 其 访问 特定 文件 呢 ? 


为 了 人 研究 这 个 问题 ， 我 们 随后 在 HDFS 创 建 了 男 一 个 根 目录 (可 以 使 用 登录 
到 主机 上 的 任意 帐号) ， 并 通过 hadoop fs 命令 的 -chown 选项 为 该 目录 
赋予 创建 者 权限 。 这 个 过 程 依然 类 似 于 标准 Unix 的 chown 工具 。 然 后 ， 我 


们 切换 到 garry 用 户 并 试图 访问 存放 在 hadoop 用 户 根 目录 下 的 文件 。 这 次 访 
问 失败 了 ， 系 统 给 出 一 个 安全 异常 ， 这 也 符合 我 们 的 预期 。 搂 下 来 ， 我 们 

EIAS Seny ARRE, HERUR, BEHEA 
访问 。 


为 了 把 事情 弄 乱 ， 我 们 又 切换 回 hadoop 用 户 并 试 着 访问 garry 用 户 根 目录 下 
的 文件 。 令 人 奇怪 的 是 ， 居 然 访 问 成 功 了 。 


1. 用 户 身份 


第 一 个 问题 的 答案 是 ，Hadoop 使 用 执行 HDFS 命 令 的 用 户 的 Unix ID 作为 
HDFS 上 的 用 户 身份 。 所 以 ， 用 户 alice 执行 命令 创建 的 文件 的 所 有 者 为 
alice ,该 用 户 只 能 读 写 其 拥有 相应 访问 权限 的 文件 。 


有 安全 意识 的 人 会 认识 到 ， 任 何人 只 要 在 可 以 连接 到 集群 的 任意 一 台 主 机 

上 创建 一 个 与 现 有 HDFS 用 户 同名 的 用 户 ， 即 可 实现 对 Hadoop 集 群 的 访问 。 
因此 ， 在 上 个 例子 中 ， 在 任何 一 台 可 以 访问 NameNode 的 主机 上 创建 的 名 为 
hadoop 的 用 户 都 可 以 读 取 用 户 hadoop 可 访问 的 文件 内 容 ， 这 种 情况 非常 


超级 用 户 


上 个 例子 中 ， 我 们 看 到 hadoop 用 户 访 问 了 garry 用 户 的 文件 。Hadoop 把 启动 
集群 的 用 户 ID 视 为 超级 用 户 ， 并 赋予 其 多 种 特权 ， 比 如 读 、 写 、 修 改 HDFS 
上 任意 文件 的 权限 。 有 安全 意识 的 人 会 认识 到 ， 这 种 风险 甚至 要 比 在 
Hadoop 管 理 员 无 法 控制 的 主机 上 随意 创建 名 为 hadoop 的 用 户 的 风险 更 

大 o 


2. 更 细 粒 度 的 访问 控制 


在 Hadoop 发 展 的 早期 阶段 ， 上 述 情 况 导 致 其 安全 性 成 为 一 个 主要 弱 氮 "但 
是 ，Hadoop 开 发 团队 没有 停 请 不 前 ， 在 完成 大 量 工 作 之 后 ， 最 新 版 的 
Hadoop 文 持 更 细 粒 度 的 、 更 强 的 安全 模型 。 


为 避免 简单 依赖 于 用 户 ID， 开 发 者 需要 从 其 他 地 方 获悉 用 户 身 份 ， 他 们 选 
择 了 Kerberos 系 统 。 这 需要 建立 并 维护 Kerberos 系 统 ， 它 们 超出 了 本 书 范 
围 ， 但 如 果 这 些 安全 机 制 对 读者 来 讲 很 重要 的 话 ， 请 自行 查阅 Hadoop 文 
档 。 请 注意 ， 用 户 可 以 综合 使 用 基于 Kerbros 的 身份 认证 机 制 和 其 他 第 三 方 


认证 系统 ， 如 微软 活动 目录 (Microsoft Active Directory) ， 因 此 其 功能 非 
常 强 大 。 


通过 物理 访问 控制 解决 安全 模型 问题 


如 果 读 者 认为 Kerberos 系 统 太 过 复杂 ， 或 者 安全 性 是 一 个 最 好 具备 而 非 必 须 
具备 的 功能 ， 还 可 以 通过 一 些 其 他 办 法 降低 安全 风险 。 我 喜欢 的 一 个 办 法 
是 ， 将 整个 集群 部 署 在 有 着 严格 的 访问 控制 抹 略 的 防火 墙 之 后 。 尤 其 是 ， 
只 允许 集群 中 的 一 台 主 机 访问 NameNode 和 JobTracker 服 务 ， 该 主机 被 视 为 
集群 的 头 节 点 ， 所 有 用 户 都 要 连 到 该 主机 。 


技巧 : 从 集群 外 的 主机 访问 Hadoop 


使 用 命令 行 工具 访问 HDFS 或 运行 MapReduce 作 业 时 ， 并 不 要 求 Hadoop 处 
于 运行 状态 。 只 要 正确 地 安装 了 Hadoop， 并 在 其 配置 文件 中 正确 设置 了 
NameNode 或 者 JobTracker 的 位 置 ， 调 用 Hadoop fs 和 Hadoop jar fi 
令 时 就 会 找到 NameNode 或 者 JobTracker 闻 点 。 


这 种 模型 的 工作 原理 是 ， 保 证 只 有 一 台 主 机 可 以 与 Hadoop 交 互 。 因 为 该 主 
机 被 集群 管理 员 控 制 ， 正 常用 户 无 法 创建 或 访问 其 他 用 户 账号 。 


请 记 住 ， 这 种 方法 并 不 提供 安全 机 制 。 它 为 一 个 脆弱 的 系统 僚 上 了 坚 便 的 
外 壳 ， 可 以 降低 破坏 Hadoop 安 全 模型 的 可 能 性 。 


7.9 ”管理 NameNode 


接 下 来 ， 我 们 将 讨论 更 多 降低 风险 的 有 效 途 径 。 在 第 6 章 F, REA 
NameNode 主 机 故障 可 能 造成 的 严重 后 采 为 例 吓 距 过 读者 。 如 果 那 一 没有 
吓 到 你 ， 回 过 头 去 再 读 一 遍 。 概 括 地 讲 ， 如 果 集 群 中 的 NameNode 无 法 提供 
服务 ， 用 户 会 失去 存储 在 集群 上 的 所 有 数据 。 这 是 因为 NameNode 人 负责 回 
fsimage 文件 写 入 数据 ， 该 文件 包含 了 文件 系统 的 所 有 元 数据 并 记录 了 哪 
个 文件 由 哪些 数据 块 组 成 。 如 果 NameNode 主 机 不 再 提供 服务 ， 会 造成 用 户 
无 法 访问 fsimage 文件 ， 其 效 采 忠 像 是 丢失 了 所 有 HDFS 数 据 。 


为 fsimage 配 置 多 个 存储 位 置 


用 户 可 以 配置 多 个 fsimage 文件 的 存储 路 径 ， 这 样 NameNode 束 会 同时 间 
多 个 位 置 写 入 fsimage 文件 。 这 完全 是 一 种 见 余 策略 ， 多 个 存储 设备 只 是 


用 于 存储 相同 数据 的 多 个 副本 ， 而 且 其 目的 并 不 是 为 了 提高 性 能 。 然 而 ， 
通过 这 种 策略 ， 可 以 降低 fsimage 文件 的 多 个 副本 同时 丢失 的 可 能 性 。 


7.10 “实践 环节 : 为 fsimage 文 件 新 增 一 个 存储 路 径 


为 了 满足 数据 恢复 的 需求 ， 我 们 把 NameNode 配 置 成 同时 输出 fsimage X 
件 的 多 个 副本 。 为 了 完成 相应 的 设置 ， 我 们 需要 一 个 NFS 导 出 目录 。 


1. 确保 集群 已 停止 运行 。 


$ stop-all.sh 


2. 在 Hadoop/conf/core-site.xml 文件 中 加 入 下 列 属性 ， 把 第 二 个 
E DM 置 ，NameNode 的 另 一 个 副本 数据 可 以 写 入 该 位 


<property> 
«name»dfs.name.dir«/name» 


«value»$1(hadoop.tmp.dirj/dfs/name, /share/backup/namenode«/value» 
</property> 


3. 删除 新 增 路 径 下 的 已 有 内 容 。 


$ rm -f /share/backup/namenode 


4. 司 动 集群 。 


$ start-all.sh 


5. 验证 fsimage 被 写 入 指定 的 那 两 个 位 置 ， 并 为 之 前 指定 的 这 两 个 文件 
运行 md5sum 命令 〈 根 据 你 配置 的 路 径 修改 下 列 代码 ) 


$ md5sum /var/hadoop/dfs/name/image/fsimage 
a25432981b0ecd6b70da647e9b94304a /var/hadoop/dfs/name/image/ 
fsimage 


$ md5sum /share/backup/namenode/image/fsimage 
a25432981b0ecd6b70da647e9b94304a /share/backup/namenode/image/ 
fsimage 


原理 分 析 


首先 ， 我 们 保证 集群 已 经 停止 运行 。 尽 管 正 在 运行 的 集群 不 会 重新 读 取 修 
改过 的 核心 配置 文件 的 内 容 ， 但 在 配置 之 前 停止 集群 运行 是 一 个 好 习惯 ， 
可 以 防范 Hadoop 新 加 入 重新 读 取 核心 配置 文件 这 一 功能 。 


接着 ， 我 们 在 集群 配置 文件 中 加 入 一 个 新 属性 : data.name.dir 。 该 属 
性 的 值 以 逗号 为 分 隔 符 ， 指 明了 fsimage 文件 的 写 入 路 径 。 请 注意 ， 
data.name.dir 反 向 引用 了 之 前 曾 讨论 过 的 hadoop .tmp .dir 属性， 其 
语法 与 Unix 中 的 变量 反 向 引用 类 似 。 使 用 该 语法 可 以 在 其 他 属性 值 基础 上 
扩展 新 的 属性 值 ， 并 可 以 继承 父 属性 的 更 新 。 


技巧 ， 别 筷 了 加 入 需要 的 所 有 位 置 


data.name.dir 属性 的 默认 值 是 ${Hadoop. tmp.dir}/dfs/name 
。 在 新 增 另 一 个 属性 值 时 ， 记 得 要 明确 地 加 入 原来 的 默认 值 ， 如 上 所 
示 。 人 否则 ， 该 属性 只 会 使 用 那个 新 值 。 


在 局 动 集群 之 前 ， 我 们 要 确保 存在 新 路 径 且 该 路 径 下 没有 数据 。 如 果 不 存 
在 该 路 径 ，NameNode 的 局 动 过 程 会 失败 ， 这 是 我 们 可 以 预料 的 。 但 是 ， 如 
果 曾 在 该 目 永 下 存储 NameNode 数 据 ， 局 动 过 程 同 样 会 失败 ， 因 为 两 个 路 径 
下 的 NameNode 数 据 不 同 ，NameNode 无 法 确定 哪个 才 是 正确 的 。 


请 注意 ! 读者 一 定 不 想 意外 误 删 了 某 个 目录 中 的 数据 ， 尤 其 是 在 试验 使 用 
多 个 NameNode 数 据 存 放 位 置 ， 或 者 在 六 后 间 往 复 交 换 页 面 数 据 的 时 候 。 


在 局 动 HDFS 集 群 后 ， 稍 等 片刻 ， 然 后 使 用 MD5 校 验 和 来 验证 这 些 位 置 存放 
的 fsimage 文件 完全 相同 。 
fsimage 副 本 的 写 入 位 置 


我 们 推荐 至 少 向 两 个 位 置 写 入 fsimage 文件 ， 其 中 一 个 位 置 应 当 是 远程 文 
件 系 统 ， 例 如 网 络 文件 系统 NES) ， 就 像 上 个 例子 那样 。Hadoop 系 统 只 
会 定期 更 新 fsimage 文件 的 内 容 ， 因 此 不 需要 文件 系统 的 性 能 有 多 高 。 


在 前 几 和 学 习 选 配 硬件 的 时 候 ， 我 们 上 暗示 过 读者 要 为 NameNode 选 配 特殊 硬 
件 。 因 为 fsimage 文件 至 天 重要 ， 有 必要 将 其 写 入 多 个 硬盘 ， 也 有 必要 为 

其 购置 高 可 靠 性 的 人 硬盘， 甚至 可 以 将 其 写 入 RAID 阵 列 。 如 果 NameNode 主 
机 发 生 故 障 ， 最 简单 的 办 法 就 是 使 用 C NGUEOCTERAHIf simage 副本 。 
但 假如 恰好 远程 文件 系统 也 发 生 了 故障 ， 只 好 从 宕 机 的 NameNode 上 拔 下 硬 
盘 并 插入 另 一 台 主 机 恢复 数据 。 


迁移 到 另 一 台 NameNode 主 机 


我 们 已 确保 fsimage 写 入 多 个 位 置 ， 这 是 同 另 一 台 NameNode 迁 移 的 最 重 
要 的 前 所。 现在 我 们 来 完成 这 个 迁移 过 程 。 


切记 不 要 在 产品 集群 上 执行 这 些 操作 。 在 产品 集群 上 进行 首次 实验 是 被 绝 

对 花 止 的 ， 但 即使 不 是 第 一 次 执行 这 些 操作 也 不 能 说 明 这 些 操作 是 完全 没 

B 2 > 但 一 定 要 在 其 他 集群 上 进行 实验 ， 从 而 知道 在 灾难 袭 来 的 时 候 
该 怎么 办 。 


在 灾难 来 袭 之 前 做 好 准备 


读者 一 定 不 想 在 需要 恢复 产品 集群 时 才 来 学 习 本 节 内 容 。 提 前 做 一 些 准 备 
不 仅 可 以 在 灾难 发 生 后 恢复 NameNode， 而 且 可 以 使 这 个 过 程 更 轻 
/N o 


。 保证 NameNode 回 多 个 位 置 写 入 fsimage 文件 。 


。 决定 在 哪 台 主机 上 运行 新 NameNode。 假 如 该 主机 目前 被 用 作 DataNode 
和 TaskTracker， 确 保 其 硬件 配置 满足 NameNode 的 需求 ， 并 且 不 会 因 缺 
少 一 台 工 作 主 机 而 造成 集群 性 能 大 幅 下 降 。 


复制 core-site.xml 和 hdfs-site.xml ， 最 好 把 它们 放 到 网 络 文 
件 系统 (NFS) 上 ， 并 修改 这 些 文 件 内 容 ， 使 其 指向 新 NameNode 主 
机 “。 在 对 现 有 配置 文件 进行 修改 的 时 候 ， 也 要 及 时 在 这 些 配 置 文件 副 
本 中 进行 相同 修改 。 


把 位 于 NameNode 主 机 上 的 slaves 文件 拷贝 到 新 NameNode 主 机 或 者 
NFS 的 共享 文件 来。 同样 ， 要 保证 对 它 进行 同步 更 新 。 


明日 如 何 处 理 新 主机 出 现 的 故障 。 修 复 或 蔡 换 原来 的 发 生 故 障 的 主机 
需要 多 长 时 间 ? 在 此 期 间 ， 哪 台 主机 将 作为 下 一 台 承 载 NameNode 和 
SecondaryNameNode 的 主机 ? 


准备 好 了 吗 ? 让 我 们 开始 吧 ! 
711 ”实践 环节 : 迁移 到 新 的 NameNode 主 机 


下 面 的 步骤 中 ， 我 们 把 新 配置 文件 放 在 挂 接 到 share/backup 的 一 个 NFS 
共享 文件 夹 中 ， 并 根据 新 文件 的 存储 位 置 改 变 配置 文件 中 的 相应 内 容 。 另 
外 ， 我 们 在 配置 文件 中 查找 新 NameNode 主 机 的 IP 地 址 ， 该 IP 地 址 专用 于 
NameNode 主 机 。 


1. 登录 到 目前 的 NameNode 主 机 ， 停 止 集群 运转 。 


$ stop-all.sh 


2. 关闭 运行 着 NameNode 进 程 的 主机 。 


$ sudo poweroff 


3. 登录 到 承载 新 NameNode 进 程 的 主机 ， 并 确认 新 配置 文件 中 的 
NameNode 位 置 是 正确 的 。 


$ grep 110 /share/backup/* .Xml 


E: 
cT 


es 


4. slaves 文件 拷贝 到 新 NameNode 主 机 上 。 


$ cp /share/backup/slaves Hadoop/conf 


es 


5. 把 更 新 过 的 配置 文件 拷贝 到 新 NameNode 主 机 上 。 


$ cp /share/backup/*site.xml Hadoop/conf 


6. 删 去 本 地 文件 中 的 旧 NameNode 的 数据 。 


$ rm -f /var/Hadoop/dfs/name/* 


e 


EESNIME ENH N ERRER REAT ex e 


$ slaves.sh cp /share/backup/*site.xml Hadoop/conf 


8. 保证 每 个 节点 上 有 一 个 指 同 新 NameNodeT 点 的 配置 文件 。 


$ slaves.sh grep 110 hadoop/conf/*site.xml 


9. 启动 集群 。 


$ start-all.sh 


— /一 


10. 通过 命令 行 检 查 HDFS 的 运行 状态 。 


$ Hadoop fs 1s / 


11. 验证 是 否 可 通过 网 页 用 户 接口 访问 HDFS。 
原理 分 析 


首先， 我 们 天 挥 了 整个 集群 。 这 个 操作 不 具有 代表 性 ， 因 为 由 故障 导致 
NameNode 停 止 运行 的 大 多 数 情况 下 ，NameNode 停 止 运行 的 方式 都 不 太 友 
好 。 但 本 章 后 面 儿 和 会 讲 到 文件 系统 错误 引发 的 问题 。 


接着 ， 我 们 关 掉 了 旧 NameNode 主 机 。 严 格 意义 上 来 讲 ， 这 不 是 必要 的 ， 但 
它 保证 了 其 他 市 点 无 法 访问 该 主机 。 它 给 你 一 种 错觉 ， 认 为 同 新 NameNode 
主机 的 迁移 过 程 很 顺利 。 


在 把 配置 文件 拷贝 到 新 主机 之 前 ， 我 们 快速 浏览 一 下 core-site.xm 和 
hdfs-site.xml, 确认 core-site.xml 中 的 fs .default.dir 属性 值 
是 正确 的 。 
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之 后 ， 我 们 在 新 主机 上 进行 准备 工作 。 首 先 把 slaves 配置 文件 以 及 集群 配 
置 文件 拷贝 至 新 主机 ， 然 后 把 本 地 路 径 下 的 旧 NameNode 数 据 删 除 。 参 阅 前 
面 的 步 又， 本 步 又 要 特别 小 心 。 


接 下 来 ， 我 们 使 用 slaves. sh 脚本 把 新 配置 文件 拷贝 到 集群 中 每 个 节点 
上 。 我 们 知道 ， 只 有 新 NameNode 主 机 的 也 中 包含 字符 串 “110”， 因 此 我 们 在 
文件 中 查找 该 字符 串 以 确保 所 有 配置 都 是 最 新 的 〈 很 明显 ， 你 需要 在 你 的 
系统 中 使 用 一 个 不 同 的 字符 串 ) 。 


至 此 ， 所 有 操作 都 已 完成 我 们 局 动 集群 并 通过 命令 行 工 具 和 网 页 用 户 接 
口 访问 集群 ， 以 确认 集群 按照 我 们 预期 的 方式 运转 。 


1. 不 要 高 兴 得 太 早 


请 记 住 ， 即 使 成 功 地 迁移 到 了 新 NameNode 主 机 ， 事 情 还 没有 完成 。 你 需要 
提前 决定 如 何 处 理 SecondaryNameNode， 以 及 假如 NameNode 再 次 出 现 故 
障 ， 下 一 步 要 把 NameNode 迁 移 到 哪 台 主 机 上 “。 为 了 做 好 这 些 准 备 ， 你 需要 
再 次 浏览 刚刚 提 到 的 “准备 工作 ”清单 并 据 此 开展 准备 工作 。 


提示 : 不 要 忘 了 考虑 发 生 关 联 故 障 的 可 能 性 。 及 时 调查 NameNode 主 机 发 
生 故 障 的 原因 ， 否 则 它 将 再 次 引发 更 大 的 问题 。 


2. 如 何 完 成 JobTracker 迁 移 过 程 


我 们 没有 提 如 何 迁 移 JobTracker， 因 为 第 6 章 曾 讲 过 ， 这 个 过 程 相 对 简单 一 
些 。 如 果 NameNode 和 JobTracker 运 行 在 同一 台 主 机 上 ， 需 要 改进 上 壕 方 
法 ， 即 更 新 mapred-site.xml 副本 的 内 容 ， 使 其 中 的 
mapred.job.tracker 属性 指 癌 新 JobTracker 主 机 的 位 置 。 


一 展 身手 ; 把 NameNode 了 迁移 到 一 台新 主机 


实践 一 下 ， 把 NameNode 和 JobTracker 从 一 台 主 机 迁移 到 另 一 台 主 机 上 。 


7.12 ”管理 HDFS 


在 第 6 章 中 曾 讲 到 过 ， 杀 死 节点 并 重启 时 ，Hadoop 会 自动 解决 很 多 可 用 性 
问题 。 如 采 在 传统 文件 系统 上 ， 这 些 问题 会 耗费 集群 管理 员 很 多 精力 。 虽 
然 Hadoop 目 动 实现 了 这 些 功能 ， 但 我 们 仍 需 了 解 其 工作 原理 。 


7.121 数据 写 入 位 置 


就 像 可 以 通过 dfs ,name .dir 属性 为 NameNode 的 fsimage 文件 指定 多 个 
存储 位 置 一 样 ， 我 们 曾经 提 到 过 ， 有 一 个 名 为 dfs .data.dir 的 类 似 属 
性 ， 它 允许 在 HDFS 使 用 多 个 数据 存储 位 置 。 本 节 我 们 将 学 习 相关 内 容 。 


这 是 一 种 有 效 方案 ， 其 工作 原理 与 NameNode 的 原理 有 较 大 区 别 。 如 果 在 
dfs.data.dir 属性 值 中 指定 多 个 路 径 ，Hadoop 会 把 它们 当做 可 并 行使 用 
的 独立 位 置 。 如 果 用 户 拥 有 多 个 指向 文件 系统 不 同位 置 的 物理 硬盘 或 其 他 
存储 设备 时 ， 这 个 属性 非常 有 用 。Hadoop 会 智能 调度 这 些 设备 ， 不 仅 可 使 
存储 尽量 最 大 化 ， 同 时 将 读 写 操作 均匀 分 配 到 这 些 设备 上 ， 以 获得 最 大 五 
吐 量 。 在 7.4.3 下 曾 所 到 ， 这 种 方法 可 以 达到 存储 量 和 吞吐 量 最 大 化 ， 但 却 
以 健壮 性 为 代价 ， 单 个 硬盘 故障 就 会 导致 主机 失效 。 


7.12.2 ”使 用 平衡 器 


Hadoop 尺 量 优化 HDFS 上 的 数据 块 存放 策略 ， 以 达到 最 佳 性 能 和 最 大 见 余 。 
但 是 ， 在 某 些 情况 下 ， 集 群 出 现 了 失衡 现象 ， 各 节操 存储 的 数据 量 有 闭 较 
大 差异 。 最 典型 的 情况 就 是 集群 中 出 现 新 增 市 点 的 时 候 。 默 认 情 况 下 ， 
Hadoop 认 为 新 增 节 点 和 其 他 节点 地 位 相同 ， 这 就 意味 着 ， 在 相当 长 一 段 时 
间 内 ， 新 增 节 点 的 空间 使 用 率 会 维持 在 较 低 水 平 。 失 效 或 出 现 其 他 问题 的 
市 点 上 存储 的 数据 块 也 明显 少 于 其 他 市 点 。 


Hadoop 提 供 了 一 个 称 为 平衡 器 的 工具 来 解决 这 个 问题 。 我 们 可 以 通过 分 别 
isfistart-balancer.sh flistop-balancer.sh 脚本 启用 或 停 用 平衡 
器 。 


运行 平衡 器 的 时 机 


Hadoop 系 统 中 缺乏 一 种 提醒 用 户 文 件 系 统 已 失衡 的 自动 报警 机 制 。 相 反 ，， 
用 户 需 要 自己 留意 hadoop fsck 和 hadoop fsadmin 反馈 的 数据 ， 观 察 
节点 间 是 否 存在 失衡 现象 。 


实际 上 ， 用 户 不 必 太 过 担心 这 个 问题 ， 因 为 Hadoop 有 痢 完 善 的 数据 块 放 置 
策略 ， 只 有 当 新 增 硬件 或 修复 故障 节点 时 ， 用 户 才 需要 运行 平衡 器 消除 主 

的 失衡 现象 。 但 是 ， 为 了 最 大 程度 地 维护 集群 正常 运转 ， 人 们 通常 会 按 
照 预 定 计 划 定期 执行 平衡 器 ， 例 如 ， 每 晚 执 行 一 次 ， 这 样 会 把 数据 块 的 平 
衡 系 数 维持 在 用 户 设 定 的 水 平 上 。 
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7.13 ”MapReduce 管 理 
从 上 一 章 可 以 看 出 ， 一 般 来 讲 ，MapReduce 框 架 比 HDFS 的 容错 能 力 更 强 。 
因为 JobTracker 和 TaskTracker 不 需要 维护 永久 数据 ， 因 此 ， 对 MapReduce 的 
管理 更 多 的 是 指 对 正在 运行 的 作业 和 任务 的 管理 ， 而 不 是 维护 框架 本 吴 。 
7.13.1 ”通过 命令 行 管理 作业 


实现 作业 管理 的 主要 工具 是 Hadoop job 命令 行 工 具 。 像 往常 一 样 ， 输 入 
下 列 命令 获取 其 使 用 说 明 。 


$ hadoop job --help 


该 命令 的 大 部 分 选项 都 无 需 解释 。 它 支持 启动 、 终 止 、 列 出 运行 中 的 作 
以 及 修改 运行 中 的 作业 。 此 外 ， 还 可 以 通过 该 命令 查询 作业 的 历史 状 
态 。 下 节 内 容 不 会 逐一 解释 这 些 选 项 ， 而 是 通过 在 一 个 例子 中 练习 多 个 子 
命令 来 研究 其 用 法 。 


RIF: 通过 命令 行 管理 作业 


使 用 MapReduce 的 网 页 用 户 接口 也 可 以 访问 部 分 上 述 功能 。 研 究 一 
M E 型 清楚 用 户 通过 该 接口 可 以 实现 和 无 法 实现 哪 
ESI 能 。 


7.13.2 ”作业 优先 级 和 作业 调度 


截至 目前 ， 我 们 通常 只 在 集群 中 运行 一 个 作业 并 等 至 其 运行 结束 。 这 束 掩 
盖 了 一 个 重要 事实 : 默认 情况 下 ，Hadoop 将 提交 的 后 续 作业 放 入 一 个 FIFO 
(First In, First Out， 先 入 先 出 的 队列 ) 。 在 一 个 作业 结束 后 ，Hadoop 会 启 
动 队列 中 的 下 一 个 作业 。 除 非 我 们 选用 了 后 面 几 和 会 讲 到 的 另 一 个 调度 算 
法 ， 采 用 先入 先 出 调度 算法 的 集群 专用 于 处 理 正在 运行 的 单个 作业 。 


对 于 很 少 有 作业 排队 等 候 运行 的 小 集群 来 说 ， 这 种 方式 完全 没 问 题 。 但 
征 ， 如 有 果 队 列 中 经 常 有 一 些 作 业 在 等 竺 执行 机 会 ， 便 会 产生 问题 。 竺 别 
是 FIFO 调 度 模型 没有 考虑 作业 优先 级 或 者 作业 所 需 的 资源 。 一 个 运行 时 
间 较 长 但 优先 级 较 低 的 作业 会 和 完 于 运行 时 间 较 短 而 优先 级 较 高 的 作业 运 
行 ， 仪 仅 因为 前 者 的 提交 时 间 早 于 后 者 。 


为 了 解决 这 个 问题 ，Hadoop 定 义 了 5 种 不 同 程度 的 作业 优先 级 ， 它 们 分 别 
是 : VERY_HIGH ` HIGH ` NORMAL ` LOW 和 VERY_LOW 。 作 业 的 默认 优 
先 级 是 NORMAL ， 但 可 以 通过 hadoop job -set-priority 命令 修改 
它 。 


7.14 ”实践 环节 :修改 作业 优先 级 并 结束 作业 运行 


接 下 来 ， 我 们 会 动态 修改 作业 优先 级 ， 并 观察 强制 结束 正在 运行 的 作业 
后 ， 哪 个 作业 会 得 到 执行 机 会 。 


1. 在 集群 上 启动 一 个 需要 运行 很 长 一 段 时 间 的 作业 。 


$ hadoop jar hadoop-examples-1.0.4.jar pi 100 1000 


2. 打开 另 一 个 窗口 并 提交 第 二 个 作业 。 


$ hadoop jar hadoop-examples-1.0.4.jar wordcount test.txt out1 


3. 打开 男 一 个 窗口 并 提交 第 三 个 作业 。 


$ hadoop jar hadoop-examples-1.0.4.jar wordcount test.txt out2 


4. 列 出 正在 运行 的 作业 。 


$ Hadoop job -list 


你 会 在 屏幕 上 看 到 下 列 输 出 。 


3 jobs currently running 

JobId State StartTime UserName Priority 
SchedulingInfo 

job 201201111540 0005 1 1326325810671  hadoop NORMAL NA 
job 201201111540 0006 1 1326325938781 hadoop NORMAL NA 
job 201201111540 0007 1 1326325961700 hadoop NORMAL NA 


5. 检查 正在 运行 的 作业 的 状态 。 


$ Hadoop job -status job 201201111540 0005 


你 会 在 屏幕 上 看 到 如 下 输出 。 


Job: job 201201111540 0005 

file: hdfs://head:9000/var/hadoop/mapred/system/ 
job 201201111540 0005/job.xml 

tracking URL: http://head:50030/jobdetails. 
jsp?jobid-job 201201111540 000 

map() completion: 1.0 

reduce() completion: 0.32666665 

Counters: 18 


6. 把 最 后 提交 的 作业 的 优先 级 提高 为 VERY_HIGH ° 


$ Hadoop job -set-priority job 201201111540 0007 VERY_HIGH 


7. 强制 结束 正在 运行 的 作业 。 


$ Hadoop job -kill job 201201111540 0005 


8. 观察 其 余 作业 ， 看 哪个 作业 开始 运行 。 


我 们 在 集群 上 启动 了 一 个 作业 ， 并 连续 提交 男 两 个 作业 ， 使 它们 处 于 排队 
等 候 状 态 。 然 后 通过 hadoop job -list 命令 确认 队列 中 的 作业 顺序 和 我 
们 的 预期 一 致 。hadoop job-list all 命令 会 列 出 所 有 已 完成 作业 和 目 
前 正在 运行 的 作业 ， 而 hadoop job -history 会 允许 我 们 更 详细 地 检查 
作业 及 其 任务 的 信息 。 为 了 确认 已 提交 作业 处 于 运行 状态 ， 我 们 使 用 
hadoop job -status 获取 作业 中 map 和 reduce 任 务 的 完成 进度 ， 以 及 作 
业 计 数 絮 的 状态 。 


接着 ， 我 们 使 用 hadoop job -set-priority 提高 队列 中 最 后 一 个 作业 
的 优先 级 。 


使 用 hadoop job -kill 命令 强制 结束 正在 运行 的 作业 后 ， 我 们 确认 下 一 
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男 一 种 调度 器 


手动 修改 FIFO 队 列 中 作业 的 优先 级 的 办 法 确实 有 效 ， 但 它 需要 主动 监测 并 
管理 作业 队列 。 仔 细 想 想 这 个 问题 ， 我 们 发 现 出 现 这 种 局 面 的 原因 在 于 
Hadoop 将 集群 资源 全 部 分 配给 了 正在 执行 的 单个 作业 。 


Hadoop 提 供 了 另外 两 种 作业 调度 器 ， 它 们 采用 了 不 同 的 方法 ， 可 以 在 多 个 
同时 运行 的 作业 之 间 共 享 集群 。Hadoop 还 提供 了 一 种 添加 额外 调度 器 的 插 
件 机 制 。 请 注意 ， 资 源 共享 是 一 个 在 概念 上 简单 ， 而 在 实现 上 非常 复 洒 的 
问题 ， 很 多 学 术 人 研究 集中 在 这 个 领域 。 其 目标 不 光 是 在 特定 时 间 点 提高 资 
源 分 配 率 ， 并 且 要 在 一 段 时 间 内 优先 运行 具有 较 高 优先 级 的 作业 。 


1. 计算 能 力 调度 器 


计算 能 力 调度 器 采用 多 个 作业 队列 ， 每 个 队列 都 会 获得 一 部 分 集群 资源 。 
用 户 提交 的 作业 会 分 别 出 现 在 各 个 队列 中 。 例 如 ， 用 户 可 以 为 运行 时 间 较 
长 的 作业 维护 一 个 较 大 的 队列 ， 并 为 它 分 配 90% 的 集群 资源 ， 同 时 为 优先 级 
较 高 的 作业 维护 一 个 较 小 的 队列 ， 并 为 该 队列 分 配 10% 的 集群 资源 。 如 果 每 
个 队列 中 都 有 一 些 竺 执行 的 已 提交 作业 ， 集 群 欣 产 束 按 此 比例 进行 分 配 。 


但 是 ， 如 琳 一 个 队列 中 的 所 有 作业 都 已 执行 完毕 ， 而 男 一 个 队列 中 还 有 待 
执行 的 作业 ， 计 算 能 力 调度 如 会 暂时 将 空 队 列 的 资源 分 配给 忙 队列 。 一 旦 
作业 被 提交 至 空 队列 ， 该 队列 在 完成 正在 运行 的 作业 之 后 会 再 次 获得 其 原 
有 容量 。 该 方法 在 提高 资源 分 配 率 和 防止 资源 长 期 内 置 这 两 个 方面 取得 了 
合理 的 平衡 。 

计算 能 力 调度 器 为 各 队列 实现 了 优先 级 功能 ， 尽 管 默认 情况 下 ， 这 一 功能 
是 禁用 的 。 即 使 高 优先 级 作业 的 提交 时 间 晚 于 低 优先 级 作业 ， 系 统 会 在 出 
现 可 用 计算 资源 时 优先 执行 融 优 先 级 作业 。 


2. 公平 调度 器 


公平 调度 器 把 整个 集群 分 制 成 若干 个 资源 池 ， 系 统 将 用 户 提交 的 作业 分 配 
到 各 个 资源 池 中 ， 并 且 通 常用 户 和 资源 池 之 间 存 在 某 种 关联 。 尺 管 默 认 情 
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在 各 资源 池 中 ， 默 认 模 式 古 所 有 提交 到 该 池 的 作业 都 共 译 其 资源 。 因 此 ， 
假设 集群 被 分 成 Alice 和 Bob 两 个 资源 池 ， 其 中 每 个 池 中 都 有 3 个 作业 ， 那 么 
集群 会 并 行 执 行 这 6 个 作业 。 用 户 可 以 限制 货源 池 中 并 行 作业 的 总 数 ， 因 为 
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与 计算 能 力 调度 器 一 样 ， 假 如 某 个 资源 池 中 的 所 有 作业 都 已 执行 完毕 ， 公 
平 调度 器 就 会 将 该 池 的 集群 资源 分 配给 其 他 资源 池 ， 并 在 该 池 重 新 收 到 作 
业 时 收回 目 己 的 资源 。 它 也 文 持 作 业 优先 级 ， 它 会 优先 安排 执行 高 优先 级 
作业 ， 而 不 管 它 的 提交 时 间 是 个 早 于 低 优先 级 作业 。 


3. 启用 蔡 代 调度 器 


Hadoop 安 装 路 径 下 的 contrib 路 人 径 中 包括 两 个 名 为 capacityScheduler 
和 fairScheduler 的 子 目 未 ， 其 中 包含 一 些 以 JAR 文 件 形式 存在 的 替代 调 
度 器 。 为 了 启用 替代 调度 器 ， 要 么 将 其 JAR 文 件 添加 到 hadoop/1ib 目录 

下 ， 要 么 明确 地 在 classpath 中 加 入 文件 位 置 。 请 注意 ， 用 户 需 要 分 别 为 各 个 
调度 需 配 置 其 属性 。 碍 阅 文 档 以 获取 更 详细 的 信息 。 


4. 何 时 使 用 替代 调度 器 


替代 调度 器 非常 有 用 ， 但 在 小 规模 集群 、 无 需 并 发 运行 多 个 作业 的 集群 或 
者 无 需 保证 优先 执行 高 优先 级 作业 的 情况 下 ， 并 不 需要 使 用 替代 调度 器 。 
每 个 调度 器 都 有 多 个 配置 参数 ， 用 户 需 要 调整 这 些 参 数 以 达到 集群 资源 的 
人 
度 器 必 不 可 少 。 


7.15 ”扩展 集群 规模 


目前 ， 用 户 已 经 搭建 了 一 个 Hadoop 集 群 ， 并 用 它 来 处 理 手头 的 数据 。 但 
是 ， 随 着 数据 越 来 越 多 ， 需 要 更 多 的 集群 资源 来 处 理 这 些 数据 。 我 们 曾经 
car. CONDES Seri 。 接 下 来 ， 我 们 将 扩展 集群 ， 提 升 其 
计算 能 力 。 
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7.15.1 提升 本 地 Hadoop 和 集群 的 计算 能 力 
我 希望 读者 不 要 担心 如 何 为 正在 运行 的 集群 新 增 节点 这 个 问题 。 在 第 6 章 
中 ， 我 们 不 断 地 杀 死 节点 并 重启 。 与 之 相 比 ， 新 增 节点 并 没有 什么 特别 之 
处 ， 用 户 只 需 执行 下 列 步 又 即 可 。 

1. 在 主机 上 安装 Hadoop。 

2. 按照 第 2 章 中 讲 到 的 步骤 设置 环境 变量 。 

3. 把 配置 文件 找 贝 到 安装 路 径 下 的 conf 目录 中 。 


4. 把 主机 的 DNS 名 或 耻 地 址 加 到 slaves 文件 中 ， 该 文件 位 于 用 户 执行 
slaves.sh ` start-all.sh 或 stop-all,sh 的 节点 上 。 


这 就 是 所 需 的 全 部 步骤 。 
一 展 身 手 ， 加 入 新 节点 并 运行 平衡 器 


笠 试 在 集群 中 新 增 一 个 节点 ， 事 后 检查 HDFS 状 态 。 如 有 果 HDFS 处 于 失衡 状 
态 ， 运 行 平衡 器 修复 失衡 现象 。 为 了 让 这 种 效果 更 明显 ， 可 以 在 新 增 节点 
之 前 ， 先 在 HDFS 上 存储 大 量 数据 。 


7.15.2 ”提升 EMR 作 业 流 的 计算 能 力 


如 打 用 户 使 用 的 是 弹性 MapReduce， 对 非 持 久 性 集群 而 言 ， 并 不 存在 扩展 集 
群 规 模 的 概念 。 因 为 在 设置 作业 流 时 ， 用 户 就 指定 了 所 需 的 主机 数 和 主机 
类 型 ， 用 户 只 需 保 证 集群 规模 与 待 执行 的 作业 相 匹配 即 可 。 


扩展 正在 运行 的 作业 流 


但 是 ， 有 时 用 户 希 望 尽快 执行 完 一 个 所 需 时 间 较 长 的 作业 。 在 这 种 情况 

下 ， 用 户 需 要 为 处 于 运行 状态 的 作业 流 加 入 更 多 节点 。 回 想 一 下 ，EMR 有 3 
种 不 同类 别 的 节点 : 运行 NameNode 和 JobTracker 的 主 世 点， 运行 HDFS 的 核 
心 玉 点， 以 及 运行 MapReduce 作 业 的 任务 节点 。 在 此 情况 下 ， 用 户 可 以 为 作 
业 流 新 增 任 务 广 点 到 达 更 快 执 行 MapReduce 作 业 的 目的 。 


另 一 种 情况 是 ， 用 万 定义 的 作业 流 包括 一 系列 而 不 只 是 一 个 MapReduce 作 
业 。EMR 人 允许 分 别 修改 各 个 作业 流 的 配置 。 这 样 做 的 好 处 是 ， 为 每 个 作业 


提供 了 量 身 定 制 的 硬件 配置 ， 能 够 更 好 地 控制 性 能 和 成 本 ， 在 二 者 之 间 取 
得 平衡 。 

标准 的 EMR 数 据 处 理 模 型 是 ， 作 业 流 从 S3 读 取 源 数据 ， 在 I 临 时 的 EMR 
Hadoop 集 群 上 处 理 这 些 数据 ， 然 后 再 把 结果 写 回 到 S$3。 但 是 ， 如 果 用 户 的 
数据 集 规模 很 大 而 且 需 要 频繁 处 理 ， 反 复 拷贝 数据 是 一 项 非常 耗 时 的 工 
作 。 在 这 种 情况 下 ， 可 以 使 用 另 一 种 模型 ， 那 就 是 在 作业 流 中 使 用 一 个 持 
入 性 的 Hadoop 集 群 ， 为 其 配备 足够 多 的 核心 节点 从 而 在 HDFS 存 储 所 需 数 
据 。 在 处 理 数据 时 ， 像 刚才 说 的 那样 通过 为 作业 流 分 配 更 多 任务 节点 达到 
提升 计算 能 力 的 目的 。 


提示 :， 目 前 ，AWS 控 制 台 不 支持 为 正在 运行 的 作业 流 调 整 集群 规模 ， 用 
户 需要 通过 API 或 命令 行 工 具 实现 这 一 功能 。 


7.16 “人 小结 


本 章 讲述 了 如 何 搭建 、 维 护 和 扩展 Hadoop 集 群 。 特 别 是 ， 我 们 知道 了 哪个 
文件 设置 了 Hadoop 配 置 属 性 的 默认 值 ， 以 及 如 何 通 过 编写 代码 实现 作业 级 
的 属性 设置 。 我 们 也 学 习 了 如 何 为 集群 选 配 硬件 ， 购 买 硬件 之 前 评估 工作 
负载 的 重要 意义 ， 以 及 Hadoop 如 何 获 得 主机 所 处 机 柜 的 物理 位 置 ， 从 而 优 
化 数据 块 放置 策略 。 


接着 ， 我们 了 解 了 默认 的 Hadoop 安 全 模型 的 工作 原理 ， 它 的 弱点 以 及 应 对 
之 策 。 我 们 还 学 习 了 如 何 降低 NameNode 的 故障 风险 〈 见 第 6 章 ) ， 如 何在 
灾难 胡来 之 时 将 NameNode 迁 移 到 一 台新 主机 。 我 们 也 学 习 了 数据 块 副 本 放 
置 策 略 ， 集 群 失 衡 的 原因 以 及 如 何 应 对 集群 的 失衡 状态 。 


我 们 还 研究 了 Hadoop 提 供 的 MapReduce 作 业 调 度 模型 ， 学 习 了 作业 优先 级 
如 何 改 变 作 业 执 行 顺序 ， 计 算 能 力 调度 器 和 公平 调度 器 如 何以 更 复杂 的 方 
式 为 多 个 并 发 作业 分 配 集群 资源 ， 以 及 如 何 扩展 集群 以 提高 其 计算 能 


本 书 对 Hadoop 核 心 内 容 的 研究 到 此 为 止 。 在 其 余 章 节 中 ， 我 们 会 接触 一 些 
建立 在 Hadoop 基 础 上 的 其 他 系统 和 工具 ， 它 们 可 以 帮助 用 户 更 精细 地 理解 
数据 ， 并 与 其 他 系统 协同 工作 。 在 下 一 章 中 ， 我 们 将 学 习 使 用 Hive， 用 类 
似 关 系数 据 库 的 概念 处 理 HDFS 上 的 数据 。 


B8% Hive: 数据 的 关系 视图 


MapReduce 是 一 个 功能 强大 的 数据 处 理 范 式 ， 能 从 复杂 的 数据 处 理 过 程 中 
凝练 出 宝贵 的 结论 。 但 是 ， 它 把 数据 处 理 分 析 过 程 拆 分 成 一 系列 map 和 
reduce 阶 段 ， 需 要 用 户 接受 这 种 理念 ， 进 行 相应 的 训练 并 有 一 定 的 经 验 。 
借助 一 些 建立 在 Hadoop 基 础 上 的 产品 ， 用 户 能 从 更 高 或 更 熟悉 的 角度 理 
解 存 储 在 HDFS 上 的 数据 。 本 章 将 介绍 其 中 最 流行 的 一 蒜 工 具 ， 它 就 是 
Hive ? 
本 章 包 括 以 下 内 容 : 
。 什 么 是 Hive 以 及 使 用 Hive 的 原因 ; 
。 如 何 安 装 并 配置 Hive; 
。 使 用 Hive 对 UFO 数 据 集 执行 类 SQL 分 析 ; 
。 Hive 与 天 系数 据 库 的 共同 特点 ， 如 联结 和 视图 ; 
怎样 有 效 地 将 Hive 应 用 于 特大 数据 集 ; 
。 Hive 如 何在 查询 语句 中 融入 用 户 目 定 义 函 数 ; 


Hive 与 另 一 款 常 用 工具 Pig 的 互补 关系 。 


8.4 ”Hive 概 壕 


Hive 是 建立 在 Hadoop 基 础 上 的 数据 仓库 ， 它 使 用 MapReduce 对 存储 于 HDFS 
上 数据 进行 分 析 。 它 专门 定义 了 一 种 类 SQL (Structured Query Language) 
查询 语言 ， 我 们 称 之 为 HiveQL 。 


8.1.1 ”为 什么 使 用 Hive 


在 第 4 章 中 ， 我 们 介绍 了 Hadoop Streaming。 它 的 一 个 最 大 优势 在 于 缩短 了 
MapReduce 作 业 的 开发 周期 。Hive 可 以 进一步 缩短 开发 周期 。 它 没有 提供 更 
快 地 开发 map 和 reduce 任 务 的 方法 ， 而 是 定义 了 一 种 类 SQL 查询 语言 。Hive 
使 用 HiveQL 语 句 表 述 查 询 操作 ， 并 立刻 将 其 自动 转化 成 一 个 或 多 个 
MapReduce 作 业 ， 然 后 执行 这 些 MapReduce 程 序 并 将 结果 反馈 给 用 户 。 
Hapoop Streaming 缩 短 了 “编码 /编译 /提交 ”的 开发 周期 ， 而 Hive 则 完全 气 弃 
了 这 一 过 程 ， 只 需 构造 HiveQL 语 句 即 可 。 


Hadoop 的 这 个 接口 不 仅 加 速 了 从 分 析 数 据 到 生成 结果 的 过 程 ， 而 且 明 显 折 
宽 了 Hadoop 和 MapReduce 的 使 用 人 和 群 。 用 户 要 想 使 用 Hadoop， 需 要 首先 掌 
握 软件 开发 技术 。 而 现在， 任何 味 悉 SQL 的 用 户 都 可 以 使 用 Hive 。 


因为 Hive 同 时 具备 上 述 特 性 ， 用 户 经 常用 它 进 行业 务 和 数据 分 析 ， 并 对 存 
储 在 HDFS 上 的 数据 执行 特殊 查询 。 和 直接 使 用 MapReduce 需 要 在 执行 作业 前 
编写 map 和 reduce 任 务 ， 这 就 意味 着 ， 从 最 初 产 生 某 种 查询 想法 到 实现 该 想 
法 的 过 程 会 产生 无 法 避免 的 延迟 。 而 使 用 Hive， 用 户 只 需 编 写 精炼 的 
HiveQL 查 询 语句 就 可 直接 进行 数据 分 析 工 作 ， 不 再 需要 软件 开发 人 员 一 直 
参与 数据 分 析 过 程 。 当 人 然 ，Hive 技 术 在 操作 层面 也 存在 一 些 实 际 的 限制 

(不 管 该 技术 功能 多 么 强大 ， 糟 糕 的 查询 语句 的 执行 效率 很 低 ) 。 但 其 适 
用 拖 围 广 ， 这 一 点 还 是 很 吸引 人 的 。 


8.1.2 ”感谢 Facebook 


我 们 曾 因 为 Google、Yahoo! 和 Doug Cutting 对 Hadoop 的 杰出 贡献 深 表 感谢 ， 
现在 ， 我 们 必须 衷心 感谢 Facebook 。 


最 初 ，Hive 是 由 Facebook 的 数据 组 开发 维护 的 ， 在 Facebook 内 部 使 用 之 后 ， 


它 被 移交 给 Apache 软 件 基 金 会 ， 此 后 ， 人 们 可 以 像 使 用 开源 软件 一 样 免费 
使 用 Hive。 它 的 主页 地 址 是 http://hive.apache.org ° 


9.2 Hive 

本 万 我 们 将 介绍 如 何 下 载 、 安 装 并 配置 Hive。 

8.2.1 ”准备 工作 

与 Hadoop 不 同 ，Hive 系 统 中 不 存在 主 和 点、 从 看 点 或 工作 蔬 点 。Hive 以 客 
户 端 应 用 程序 的 形式 运行 ， 负 责 处 理 HiveQL 查 询 ， 将 查询 语句 转化 为 
MapReduce 作 业 ， 并 将 作业 提交 到 一 个 Hadoop 集 群 


虽然 Hive 提 供 了 一 种 适用 于 小 作业 和 开发 使 用 的 方式 ， 但 通常 情况 下 ， 
Hive 需 要 一 个 现 有 的 正在 运行 的 Hadoop 集 群 来 配合 运行 MapReduce 作 业 。 


正如 其 他 Hadoop 客 户 端 不 需要 在 实际 的 集群 节点 上 执行 ，Hive 可 以 在 符合 
下 列 条 件 的 任何 主机 上 执行 : 


e 安装 了 Hadoop 的 主机 〈 即 使 主机 上 没有 正在 运行 的 进程 ) ; 


e 把 HAPOOP_HOME 环境 变量 的 值 设置 为 Hadoop 安 狐 目 如 的 主机 .; 

。 系统 路 径 或 用 户 路 径 中 出 现 ${HADOOP_HOME}/bin 目录 的 主机 。 
8.22 下载 Hive 
读者 可 以 从 http:/hive.apache.org/releases.html 下 载 到 Hive 的 最 新 稳定 版 本 。 
Hive 入 门 指南 (其 网 址 为 
http://cwiki.apache.org/confluence/display/Hive/GettingStarted ) 会 从 兼容 的 角 


度 为 用 户 推荐 合适 的 版 本 ， 但 一 般 情 况 下 ， 可 以 预见 ，Hive、Hadoop 和 
Java 的 最 新 稳定 版 应 当 能 够 协同 工作 。 


8.3 ”实践 环节 : 安装 Hive 
接 下 来 ， 我 们 将 安装 并 配置 Hive， 以 便 日 后 使 用 。 
1. 下 载 Hive 的 最 新 稳定 版 本 ， 并 将 其 放 到 安装 目 永 下 。 


$ mv hive-0.8.1.tar.gz /usr/1local 


FEE 


2. 解压 安装 包 。 


$ tar -xzf hive-0.8.1.tar.gz 


3. 把 安装 路 径 设 为 变量 HIVE_HOME 的 值 。 


$ export HIVE HOME-/usr/local/hive 


4. 将 HIVE 的 主 目 孙 添加 到 PATH 变量 中 : 


$ export PATH-$(HIVE HOME)/bin:$(PATH) 


5. 在 HDFS 上 创建 Hive 所 需 路 径 /tmp 和 aservhive/warehouse ° 


$ hadoop fs -mkdir /tmp 


$ hadoop fs -mkdir /user/hive/warehouse 


6. 修改 上 述 路 径 的 访问 权限 ， 使 用 户 组 具有 写 入 权限 。 


$ hadoop fs -chmod g+w /tmp 
$ hadoop fs -chmod g+w /user/hive/warehouse 


7. 试 着 局 动 Hive。 


$ hive 


该 命令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/lib/hive-common-0.8.1.jar!/hive-log4j.properties 


Hive history file-/tmp/hadoop/hive job log. 
hadoop 201203031500 480385673.txt 
hive» 


8. 退出 Hive 的 交互 式 shell ° 


$ hive» quit; 


原理 分 析 


下 载 到 Hive 的 最 新 稳定 版 安装 包 之 后 ， 我 们 将 其 拷贝 至 安装 位 置 并 解压 文 
件 。 这 一 步 会 自动 创建 一 个 名 为 hive-<version> HH% ° 


与 之 前 定义 HADOOP_HOME 并 将 安装 目录 下 的 bin 路 径 添 加 到 path 变 量 类 
似 ， 我 们 定义 了 HIVE_HOME 并 将 Hive 的 bin 路 径 添 加 至 path 变 量 。 


提示 : 请 记 住 ， 为 了 避免 用 户 每 次 登录 都 要 设置 这 些 变量 ， 可 以 把 它们 
添加 到 用 户 登 录 的 shell 脚 本 或 一 个 单独 的 配置 脚本 中 ， 这 样 用 户 使 用 Hive 
时 只 需 调 用 这 些 脚本 即 可 。 


接着 ， 我 们 在 HDFS 上 创建 了 两 个 Hive 要 用 到 的 目录 ， 并 修改 它们 的 属性 ， 
使 用 户 组 具有 对 该 目录 的 写 入 权限 。 默 认 情 况 下 ，Hive 会 把 执行 查询 语句 
产生 的 临时 数据 写 入 /tmp 目录 ， 除 此 之 外 ， 输 出 数据 也 会 被 写 入 该 目 

5k ° /user/hive/warehouse 目录 则 用 于 存储 写 入 Hive 表 中 的 数据 。 
完成 这 些 设 置 之 后 ， 我 们 运行 hive 命令 。 如 果 安 装 成 功 的 话 ， 该 命令 的 输 
出 与 上 述 输 出 类 似 。 不 带 任何 参数 运行 hive 命 令 ， 会 进入 一 个 交互 shell 。 
hive» 提示 符 类 似 于 关系 数据 库 中 的 交互 工具 sql> mysql> 。 

接着 ， 我 们 输入 quit; 命令 退出 交互 shell。 一 定 要 注意 末尾 的 分 号 ; 。 如 
前 所 述 ，HiveQL 与 SQL 非常 相似 ， 并 遵循 SQL 中 关于 “所 有 命令 必须 以 分 号 
结束 ”的 约定 。 没 有 输入 分 号 而 按 下 回 车 键 ， 意 味 着 用 户 将 在 下 一 行 继续 输 


入 命令 。 
8.4 使 用 Hive 
成 功 安装 Hive 之 后 ， 我 们 将 用 它 来 分 析 第 4 章 介绍 过 的 UFO 数 据 集 。 
问 Hive 导 入 新 数据 的 过 程 通常 分 为 以 下 3 个 阶段 。 
1. 定义 表 的 各 个 字段 ， 该 表 将 用 于 导入 数据 。 
2. 把 数据 导入 已 创建 的 表 中 。 
3. 针对 上 表 执 行 HiveQL 查 询 。 


上 述 过 程 与 天 系数 据 库 中 的 操作 非 第 相似 。Hive 文 持 数 据 的 结构 化 查询 视 
EAE 查询 之 前 ， 我 们 必须 首先 为 表 的 每 列 定 义 规范 并 把 数据 导 


提示 :， 我 们 假设 读者 较为 熟悉 SQL 语言 ， 所 以 本 章 内 容重 在 介绍 怎样 使 
用 Hive 处 理 数据 ， 而 不 会 详细 解释 SQL 的 某 个 概念 。 不 太 熟 悉 SQL 语 言 的 
读者 可 以 在 手边 准备 一 本 SQL 参考 手册 ， 虽 然 我 们 保证 读者 能 够 理解 每 

条 SQL 语 句 的 功能 ， 但 有 些 语句 的 细 市 可 能 需要 读者 深入 研究。 


8.5 ”实践 环节 : 创建 UFO 数 据 表 


接 下 来 ， 通 过 下 列 步 骤 新 建 一 个 表 ， 并 把 UFO 数 据 导 入 该 表 e 
1. 启动 Hive 的 交互 式 shell ° 


$ hive 


2. 为 UFO 数 据 集 创建 表 。 为 了 增强 可 读 性 ， 我 们 将 相关 语句 分 成 多 行 显 
ZR ° 


hive> CREATE TABLE ufodata(sighted STRING, reported STRING, 
sighting_location STRING, > shape STRING, duration STRING, 
description STRING COMMENT 'Free text description') 

COMMENT 'The UFO data set. ' 


, 


输入 上 述 语 句 之 后 ，Hive 的 输出 结果 如 下 所 示 。 


OK 
Time taken: 0.238 seconds 


3. 列 出 所 有 现 有 表 。 


hive> show tables; 


该 命令 的 执行 结果 如 下 所 示 。 
OK 


Time taken: 0.156 seconds 


4. 显示 与 正则 表达 式 “.*data” 匹 配 的 表 。 


hive> show tables '.*data'; 


该 命令 的 执行 结果 如 下 所 示 。 


Time taken: 0.065 seconds 


. 验证 表 中 各 字段 的 定义 。 


hive» describe ufodata; 


该 命令 的 执行 结果 如 下 所 示 。 
OK 


sighted string 

reported string 

sighting_location string 

shape string 

duration string 

description string Free text description 
Time taken: 0.086 seconds 


.更 详细 地 显示 对 表 的 描述 。 


hive» describe extended ufodata; 


该 命令 的 执行 结果 如 下 所 示 。 


OK 


sighted string 
reported string 


Detailed Table Information  Table(tableName:ufodata, 
dbName:default, owner:hadoop, createTime:1330818664, 
lastAccessTime:0, retention:0, 


..location:hdfs://head:9000/user/hive/warehouse/ 

ufodata, inputFormat:org.apache.hadoop.mapred. 
TextInputFormat,outputFormat:org.apache.hadoop.hive.ql.io. 
HivelgnoreKeyTextOutputFormat, compressed:false, numBuckets:-1, 


原理 分 析 


局 动 Hive 交 互 程序 后 ， 我 们 用 CREATE TABLE 命令 来 定义 UFO 数 据 表 的 结 
构 。 和 标准 SQL 一 样 ， HiveQL 要 求 为 表 中 的 每 列 指定 列 名 和 数据 类 型 。 
HiveQL 还 可 以 为 每 列 和 整个 表 加 入 可 选 注释 ， i 我 们 

为 “description” 列 和 全 表 加 入 了 注释 。 


针对 UFO 数 据 ， 我 们 定义 该 表 中 所 有 字段 的 数据 类 型 为 STRING 。 和 SQL 一 
样 ，HiveQL 也 支持 多 种 数据 类 型 。 


。 布 尔 类 型 : BOOLEAN 


。 整 数 类 型 : TINYINT ^ INT ^ BIGINT 
。 浮 点 类 型 FLOAT 、DOUBLE 
。 文本 类 型 : STRING 


创建 表 之 后 ， 使 用 SHOW TABLES 语句 来 确认 表 已 经 创建 成 功 。 该 命令 会 列 
出 系统 中 所 有 的 表 ， 在 我 们 这 个 例子 中 ， 系 统 中 只 有 一 个 UFO 表 。 


接 看 ， 我 们 使 用 SHOW TABLES 语句 的 变 体 ， 该 语句 附带 了 一 个 可 选 的 

JAVA 正则 表达 式 ， 用 于 列 出 与 正则 表达 式 匹 配 的 所 有 表 。 本 例 中 ， 和 输出 结 

果 与 上 个 命令 完全 相同 ， 但 当 系统 中 存在 许多 表 的 时 候 ， 万 其 是 不 知道 表 
的 准确 名 称 的 时 候 ， 这 种 变 体 非 第 有 用 。 


提示 : 我们 已 成 功 创建 了 表 ， 但 还 没有 验证 该 表 的 结构 是 否 合理 。 下 一 
步 ， 我 们 将 使 用 DESCRIBE TABLE 命令 显示 特定 表 的 详细 信息 a o RITE 
到 ， 所 有 字段 都 和 预期 相同 (尽管 该 命令 不 能 返回 表 的 注释 信息 ) e 
下 来 ， 我 们 使 用 DESCRIBE TABLE EXTENDED 命令 获取 该 表 的 更 多 信 


4D 


上 例 中 ， cdi QU e de AVE, KENES ARI — 
小 部 分 。 请 注意 ， 输 入 格式 被 指定 为 TextInputFormat 。 默认 情况 下 。 


Hive 假 设 插 入 表 中 的 所 有 HDFS 文 件 都 以 文本 文件 的 形式 存在 。 
同时 ， 我 们 还 观察 到 ， 表 数据 存储 在 之 前 创建 的 HDFS 目 


sk/user/hive/warehouse F ° 
技巧 : 关于 字符 大 小 写 的 提示 


忠 像 SQL 一 样 ，HiveQL 对 关键 词 、 列 名 、 表 名 中 的 字符 不 区 分 大 小 写 。 
按照 惯例 ，SQL 语 句 中 的 关键 词 使 用 大 写 子 母 ， 我 们 通常 会 在 编写 脚本 
文件 中 的 HiveQL 语 句 时 遵照 这 个 惯例 ， 称 后 会 在 具体 示例 中 看 到 。 但 

是 ， 在 策 入 交互 式 命令 时 ， 我 们 通 负 会 选用 最 简单 的 万 式 一 一 使 用 小 写 


FT 


8.6 ”实践 环节 : 在 表 中 插入 数据 


上 一 市 我 们 完成 了 表 的 创建 工作 ， 接 下 来 ， 我 们 将 把 UFO 数 据 导 入 
ufodata X ° 


1. 将 UFO 数 据 文件 拷贝 至 HDFS 。 


$ hadoop fs -put ufo.tsv /tmp/ufo.tsv 


2. 确认 文件 已 成 功 复制 到 HDFS。 


$ hadoop fs -ls /tmp 


上 上述 命 令 的 结果 如 下 所 示 。 


Found 2 items 


drwxrwxr -x - hadoop supergroup 0 .. 14:52 /tmp/hive- 
hadoop 

-rw-r--r-- 3 hadoop supergroup 75342464 2012-03-03 16:01 
/ tmp/ 

ufo.tsv 


3. 进入 Hive 区 互 式 shell ° 


$ hive 


4. 把 步 又 1 复制 到 HDFS 的 文件 数据 插入 ufodata 表 中 。 


hive» LOAD DATA INPATH '/tmp/ufo.tsv' OVERWRITE INTO TABLE 
ufodata; 


上 述 命 令 的 结果 如 下 所 示 。 


Loading data to table default.ufodata 
Deleted hdfs://head:9000/user/hive/warehouse/ufodata 


OK 
Time taken: 5.494 seconds 


5. 退出 Hive shell ° 


hive» quit; 


6. 检查 HDFS 上 存放 UFO 数 据 副 本 的 目录 。 


$ hadoop fs -ls /tmp 


上 述 命 令 的 结果 如 下 所 示 。 


Found 1 items 
drwxrwxr -x - hadoop supergroup 0 . 16:10 /tmp/hive- 


hadoop 


原理 分 析 


首先 ， 我 们 把 第 4 章 中 用 到 的 以 tab 键 分 隔 的 UFO 数 据 文件 拷贝 至 HDFS。 确 
认 HDFS 上 存 有 文件 数据 后 ， 我 们 启动 Hive 交 互 shell 并 用 LOAD DATA 命令 
将 文件 数据 载 和 ufodata 表 。 


因为 我 们 使 用 的 文件 已 经 放 到 了 HDFS 上 ， 所 以 单独 使 用 INPATH 关键 词 来 
指定 源 文件 的 位 置 。 我 们 还 可 以 通过 LOCAL INPATH 指定 位 于 本 地 文件 系 
统 上 的 源 文件 ， 将 它 直 接 导 入 Hive 表 中 。 这 样 就 不 必 明 确 地 将 本 地 文件 系 
统 上 的 源 文件 拷贝 到 HDFS 。 


在 把 UFO 数 据 导 入 ufodata 表 的 Hive 语 句 中 ， 我 们 指定 了 OVERWRITE X 
键 词 ， 它 会 在 导入 新 数据 前 删除 表 中 原 有 数据 。 从 该 命令 的 执行 结果 可 以 
看 出 ， 使 用 OVERWRITE 会 把 存放 表 数 据 的 目录 清空 ， 因 此 要 谨慎 使 用 该 语 


^H] 


请 注意 ，Hive 系 统 用 了 5 秒 多 时 间 来 执行 该 命令 ， 明 显 多 于 把 UFO 数 据 文件 
拷贝 至 HDFS 的 时 间 。 


提示 : 虽然 我 们 在 本 例 中 明确 使 用 了 一 个 源 文件 ， 但 我 们 通过 指定 一 个 
目录 作为 INPATH 的 参数 ， 使 用 一 条 LOAD 命 令 导 入 多 个 文件 。 在 这 种 情 
况 下 ， 目 录 中 的 所 有 文件 都 会 导入 到 表 中 。 


退出 Hive shell 之 后 ， 我 们 再 次 查看 刚刚 存放 ufo 数 据 文 件 副 本 的 目录 ， 结 果 
发 现 该 目录 已 被 删除 。 如 果 传 给 LOAD 语句 的 是 HDFS 上 的 数据 路 径 ， 那 么 
LOAD 语句 不 光 会 将 数据 复制 到 /user/hive/datawarehouse ， 同 时 也 
会 删 掉 其 原始 目录 。 如 果 读 者 想 分 析 HDFS 上 被 其 他 程序 使 用 的 数据 ， 要 人 么 
备份 一 个 副本 ， 要 么 使 用 后 面 将 讲 到 的 EXTERNAL 方案 。 


验证 数据 

在 将 数据 导入 Hive 表 之 后 ， 一 种 好 的 做 法 是 ， 立 刻 进行 一 些 快速 验证 查 
询 ， 以 确定 所 建 的 表 及 表 中 数据 和 预期 一 尾 > 有 时 候 ， 通 过 验证 查询 发 
现 ， 表 的 初始 定义 束 是 错误 的 。 


进行 初步 验证 的 最 简单 方法 天 是 ， 执 行 一 些 统计 查询 以 验证 导入 数据 是 否 
正确 。 这 与 第 4 章 使 用 Hadoop Streaming 执 行 的 任务 类 似 。 
1. 在 hive 命令 行 工 具 中 输入 以 下 HiveQL 语 句 ， 它 会 统计 表 中 的 记录 总 
数 ， 记 得 不 要 使 用 Hive shell» 


$ hive -e "select count(*) from ufodata;" 


该 命令 的 执行 结果 如 下 所 示 。 
Total MapReduce jobs 1 


Launching Job 1 out of 1 


Hadoop job information for Stage-1: number of mappers: 1; number 
of reducers: 1 


2012-03-03 16:15:15,510 Stage-1 map = 0%, reduce - 096 
2012-03-03 16:15:21,552 Stage-1 map = 100%, reduce - 096 
2012-03-03 16:15:30,622 Stage-1 map = 100%, reduce - 10096 


Ended Job - job 201202281524 0006 

MapReduce Jobs Launched: 

Job 0: Map: 1 Reduce: 1 HDFS Read: 75416209 HDFS Write: 6 
SUCESS 

Total MapReduce CPU Time Spent: 0 msec 

OK 

61393 

Time taken: 28.218 seconds 


. 作为 示例 ， 从 sighted 列 选取 5 个 值 。 


$ hive -e "select sighted from ufodata limit 5;" 


该 命令 的 执行 结果 如 下 所 示 。 


1 


Total MapReduce jobs = 
Launching Job 1 out of 1 


OK 

19951009 19951009 Iowa City, IA Man repts. witnessing 
&quot;flash, followed by a classic UFO, w/ a tailfin at 
back.&quot; Red color on top half of tailfin. Became triangular. 
19951010 19951011 Milwaukee, WI 2 min. Man on Hwy 
43 SW 

of Milwaukee sees large, bright blue light streak by his car, 
descend, turn, cross road ahead, strobe. Bizarre! 

19950101 19950103 Shelton, WA Telephoned Report:CA 
woman visiting daughter witness discs and triangular ships over 
Squaxin Island in Puget Sound. Dramatic. Written report, with 
illustrations, submitted to NUFORC. 

19950510 19950510 Columbia, MO 2 min. Man repts. 


son&apos;s 


bizarre sighting of small humanoid creature in back yard. Reptd. 
in Acteon Journal, St. Louis UFO newsletter. 
19950611 19950614 Seattle, WA Anonymous caller repts. 


sighting 4 ufo&apos;s in NNE sky, 45 deg. above horizon. (No other 
facts reptd. No return tel. £.) 
Time taken: 11.693 seconds 


原理 分 析 


本 例 中 ， 我 们 没有 使 用 Hive 交 互 式 shell， 而 是 直接 在 hive -e 命令 中 使 用 
HiveQL 语 句 。 区 互 式 shell 一 般 用 于 处 理 一 系列 的 Hive 操 作 。 对 一 些 简单 的 
语句 ， 直 接 把 HiveQL 碍 询 语 句 传 入 命令 行 工具 更 方便 简 活 。 也 束 是 说 ， 在 
脚本 中 也 可 以 调用 Hive。 


提示 :， 当 使 用 hive-e 时 ， 没 必要 再 用 分 号 作为 HiveQL 语 句 的 结束 符 ， 
但 有 时 候 很 难 改 掉 这 个 习惯 。 如 果 你 想 在 同一 语句 中 执行 多 个 命令 ， 就 


必须 用 分 号 分 开 这 些 命令 。 


第 一 次 查询 的 结果 是 61393， 与 我 们 之 前 直接 用 MapReduce 分 析 UFO 数 据 集 
时 得 到 的 结果 是 一 样 的 。 这 表明 整个 数据 集 确实 已 被 导入 表 中 。 

接着 ， 我 们 执行 了 第 二 次 查询 ， 即 从 表 的 第 一 列 选 取 5 个 值 ， 我 们 希望 它 返 
Bi 。 但 结果 却 是 5 条 包括 UFO 出 现 日 期 在 内 的 完整 
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出 现 这 种 问题 的 原因 在 于 ， 我 们 依靠 Hive 把 数据 文件 以 文本 文件 的 形式 导 
入 表 中 ， 却 没有 考虑 各 列 之 间 的 分 隔 符 。 我 们 的 数据 文件 以 tab 作 为 分 隔 

但 在 默认 情况 下 ，Hive 认 为 其 输入 文件 的 分 隔 符 是 ASCII 码 00 (control- 
A o 


8.8 ”实践 环节 : 用 正确 的 列 分 隔 符 重 定 义 表 
下 面 ， 我 们 将 修正 表 规 范 。 
1. 把 下 列 HiveQL 语 句 保 存 为 commands .hql 文件 。 


DROP TABLE ufodata 
CREATE TABLE ufodata(sighted string, reported string, 


sighting_location string,shape string, duration string, description 
string) 


, 


ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t' 


, 


LOAD DATA INPATH '/tmp/ufo.tsv' OVERWRITE INTO TABLE ufodata ; 


2. 把 数据 文件 找 贝 至 HDFS 。 


$ hadoop fs -put ufo.tsv /tmp/ufo.tsv 


3. 执行 HiveQL 脚 本 : 


$ hive -f commands.hql 


该 脚本 的 执行 结果 如 下 所 示 。 


OK 

Time taken: 5.821 seconds 

OK 

Time taken: 0.248 seconds 

Loading data to table default.ufodata 


Deleted hdfs://head:9000/user/hive/warehouse/ufodata 
OK 


Time taken: 0.285 seconds 


4. 验证 表 中 数据 的 忌 行 数 。 


$ hive -e "select count(*) from ufodata;" 


该 命令 的 执行 结果 如 下 所 示 。 


OK 
61393 


Time taken: 28.077 seconds 


5. 验证 reported 列 的 内 容 。 


$ hive -e "select reported from ufodata limit 5" 


该 命令 的 执行 结果 如 下 所 示 。 


OK 

19951009 

19951011 

19950103 

19950510 

19950614 

Time taken: 14.852 seconds 


原理 分 析 


本 例 中 ， 我 们 介绍 了 调用 HiveQL 命 令 的 第 三 种 方法 。 除 了 使 用 交互 shell 或 
在 Hive 工 具 中 使 用 查询 语句 ，Hive 还 可 以 从 包含 多 条 Hive 语 句 的 文件 中 读 取 
其 内 容 ， 并 执行 这 些 命 令 。 


下 和 完 ， 我 们 创建 了 这 样 一 个 文件 ， 它 先 删 除 旧 表 ， 然 后 新 建 一 个 表 ， 并 把 
数据 导入 新 表 。 


新 定义 的 表 规 约 与 前 一 个 的 主要 区 别 在 于 ， 前 者 用 到 了 ROW FORMAT 和 
FIELDS TERMINATED BY 语句 。 这 两 条 语句 都 是 必需 的 : 第 一 条 命令 告 
诉 Hive 每 行 数 据 包含 多 个 有 界 字 段 ， 而 第 二 条 命令 则 指定 了 真正 的 分 隔 
符 。 可 以 看 出 ， 我 们 既 可 以 用 明确 的 ASCII 码 也 可 以 用 常用 的 Nt 符号 来 表 
zřtab ° 


提示 :在 指定 分 隔 符 的 时 候 要 多 加 小 心 ， 它 必须 准确 无 误 并 且 要 区 分 大 
小 写 。 不 要 因为 大 意 把 \t 误 写 为 \T 而 浪费 几 个 小 时 的 时 间 ， 我 最 近 就 
犯 过 类 似 错误 。 


在 运行 commands .hql 脚本 之 前 ， 我 们 再 次 把 UFO 数 据 文件 复制 到 HDFS 
(上 一 个 文件 副本 已 被 DELETE 命令 删除 ) ， 然 后 使 用 hive -f 来 执行 
HiveQL 脚 本 文件 。 


和 之 前 一 样 ， 我 们 接 下 来 执行 两 个 位 单 的 SELECT 语句 ， 第 一 条 语句 用 于 统 
计 表 中 的 总 行 数 ， 第 二 条 语句 用 于 列 出 某 个 指定 列 的 一 小 部 分 值 。 


不 出 所 料 ， 总 行 数 与 前 一 个 例子 的 结果 一 致 。 与 前 一 个 例子 相 比 ， 第 二 条 
a a 说 明 Hive 按 照 每 行 数据 的 组 成 字段 进行 了 正 
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Hive 表 是 个 逻辑 概念 


如 有 果 读 者 仔细 观察 上 个 例子 中 各 命令 的 运行 时 间 ， 可 能 会 发 现 一 种 看 似 奇 
怪 的 现象 。 把 数据 导入 表 所 用 的 时 间 和 创建 表 规约 所 用 时 间 基 本 一 样 ， 但 
是 ， 统 计 忌 行 数 这 样 的 简单 任务 却 用 了 较 长 的 时 间 。 输 出 结果 也 表明 ， 表 
的 创建 和 数据 导入 并 没有 真正 引起 MapReduce 作 业 的 执行 ， 这 就 解释 了 为 什 
么 执行 这 些 任务 所 用 时 间 较 短 。 


把 数据 导入 Hive 表 的 过 程 不 同 于 我 们 依据 传统 数据 库 经 验 给 出 的 判断 。 虽 
然 Hive 把 数据 文件 捞 入 工作 路 径 ， 但 事实 上 它 并 没有 在 这 个 时 候 将 输入 数 
据 插 入 表 中 各 行 。 与 之 相反 ， 它 以 源 数据 为 基础 创建 了 一 批 元 数据 ， 后 续 
HiveQL 查 询 将 用 到 这 些 元 数据 。 


如 此 说 来 ，CREATE TABLE 和 LOAD DATA 语句 都 不 会 创建 实际 的 表 数 
据 ， 只 是 生成 一 些 元 数据 。 当 Hive 使 用 HiveQL 转 换 成 的 MapReduce 作 业 访 
问 概念 上 存储 在 表 中 的 数据 时 ， 将 会 用 到 这 些 元 数据 。 


8.9 ”实践 环节 : 基于 现 有 文件 创建 表 


截至 目前 ， 我 们 学 习 了 如 何 把 Hive 有 效 控制 的 文件 数据 直接 导入 Hive 表 。 

然而 ， 我 们 也 可 以 为 Hive 外 部 文件 数据 创建 表 。 在 需要 使 用 Hive 处 理 外 部 
程序 写 入 和 管理 的 数据 或 数据 存储 于 Hive 仓 库 之 外 的 路 径 的 时 候 ， 这 种 方 
法 特别 有 用 。 用 户 不 必 把 这 些 文件 移 到 Hive 仓 库 目 未 下 ， 用 户 删 除 表 时 也 
不 会 影响 到 这 些 文件 的 可 用 性 。 


1. 将 以 下 内 容 存 入 states .sql 脚本 文件 。 


CREATE EXTERNAL TABLE states(abbreviation string, full name 
string) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\t' 

LOCATION '/tmp/states' ; 


2. 把 数据 文件 states .txt 拷贝 到 HDFS， 然 后 确认 该 文件 确实 存在 。 


$ hadoop fs -put states.txt /tmp/states/states.txt 


$ hadoop fs -ls /tmp/states 


上 述 命 令 的 执行 结 采 如 下 所 示 。 


Found 1 items 
-rw-r--r-- 3 hadoop supergroup 654 2012-03-03 16:54 


/tmp/states/states.txt 


3. 执行 HiveQL 脚 本 。 


$ hive -f states.hql 


该 命令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/lib/hive-common-0.8.1.jar!/hive-log4j.properties 

Hive history 
file-/tmp/hadoop/hive job log hadoop 201203031655 1132553792.txt 
OK 

Time taken: 3.954 seconds 

OK 

Time taken: 0.594 seconds 


4. 检查 源 数 据 文 件 。 


$ hadoop fs -ls /tmp/states 


该 命令 的 执行 结果 如 下 所 示 。 


Found 1 items 
-rw-r--r-- 3 hadoop supergroup 654 .. /tmp/states/states. 


txt 


5. 对 刚 创建 的 表 执 行 一 次 示例 查询 。 


$ hive -e "select full name from states where abbreviation like 


!'CA!'" 


该 命令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/1lib/hive-common-0.8.1.jar!/hive-log4j.properties 
Hive history 
file-/tmp/hadoop/hive job log hadoop 201203031655 410945775.txt 
Total MapReduce jobs = 1 

.. OK 


California 
Time taken: 15.75 seconds 


原理 分 析 


创建 外 表 的 HiveQL 语 句 和 之 前 使 用 的 CREATE TABLE 语句 格式 稍 有 不 同 。 
关键 字 EXTERNAL 表明 该 表 存 在 于 Hive 控 制 之 外 的 位 置 ， 同 时 LOCATION 
子 句 指明 了 源 文件 或 源 目 录 的 位 置 。 


在 创建 了 HiveQL 脚 本 之 后 ， 我 们 把 源 数 据 文件 拷贝 至 HDFS。 我 们 使 用 第 4 
章 用 到 的 states 文 件 作为 表 的 源 数据 ， 该 文件 存储 了 美国 州 名 全 称 与 双 字 符 
缩写 之 间 的 映射 关系 。 


确认 源 文 件 确 实 存 在 于 HDFS 上 之 后 ， 我 们 执行 查询 语句 来 创建 表 并 再 次 检 
查 源 文 件 。 与 上 个 例子 不 同 ， 我 们 没有 把 源 文件 移 
到 /user/hive/warehouse 目录 下 ，states,txt 文件 依然 存在 于 
HDFS 上 的 找 贝 路 径 。 


最 后 ， 我 们 针对 所 创建 的 表 执 行 查 询 ， 查 询 结 果 验 证 了 表 中 数据 即 为 源 数 
据 。 这 也 突出 了 本 例 与 CREATE TABLE 的 另 一 个 区 别 : 在 上 例 中 非 外 部 表 
的 情况 下 ， 创 建 表 的 语句 不 会 把 数据 插入 表 中 ， 而 是 由 后 续 LOAD DATA 或 
INSERT 语句 ( 稍 后 介绍 该 语句 ) 向 表 中 插入 数据 。 在 定义 表 时 用 
LOCATION 关键 词 指 定 源 文件 位 置 ， 可 以 在 创建 表 的 同时 把 数据 插入 表 
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现在 ，Hive 中 已 有 两 个 表 ， 较 大 的 表 用 于 存储 UFO 目 击 事件 数据 ， 较 小 的 
表 用 于 存储 美国 州 名 缩写 。 如果 用 第 二 个 表 的 数据 来 充实 第 一 个 表 的 
location 列 ， 会 不 会 很 有 意义 ? 


8.10 ”实践 环节 :执行 联结 操作 


SQL 中 经 常用 到 联结 这 


一 工具 ， 但 在 新 语言 中 使 用 联结 似乎 不 太 容 易 。 实 


Taa Wes POE TOR 个 条 件 语句 实现 多 表 数 据 行 的 逻辑 组 合 。Hive 文 持 
多 种 形式 的 数据 联结 ， 接 下 来 我 们 将 研究 这 些 内 容 。 


1. 把 下 列 内 容 存 入 join.hql 脚本 文件 。 


SELECT t1.sigh 
FROM ufodata t 
ON (LOWER(t2.a 
(LENGTH(t1.sig 
LIMIT 5 ; 


N 


ted, t2.full_name 

1 JOIN states t2 

bbreviation) = LOWER(SUBSTR( t1.sighting_location, 
hting_location)-1)))) 


.执行 上 述 查 询 。 


$ hive -f join.hgl 


该 命令 的 执行 结果 如 下 所 示 。 


OK 

20060930 Al 
20051018 Al 
20050707 Al 
20100112 Al 
20100625 Al 


原理 分 析 


Time taken: 33. 


aska 
aska 
aska 
aska 
aska 
255 seconds 


实际 上 ， 本 例 实现 的 联结 查询 相对 简单 。 我 们 想 从 一 系列 记录 中 提取 
sighted 和 location 字 段 ， 但 不 想 使 用 location 字 段 的 原始 数据 ， 而 是 想 把 该 字 


段 映射 为 州 名 全 称 


o 我们 创建 的 HiveQL 文 件 执行 的 就 是 这 个 碍 询 任务 。 


HiveQL 使 用 标准 的 JOIN 关键 词 指定 联结 语句 ， 并 用 ON 子 句 指定 匹配 条 
人 


由 于 Hive 只 支持 等 联结 ， 也 就 是 说 ，ON 子 句 中 只 能 进行 等 式 检 查 ， 受 此 限 
制 ， 事 情 变 得 有 些 复杂 。 联 结语 句 中 的 条 件 子 句 不 能 包含 >、? 、< 等 操作 
符 ， 以 及 我 们 常用 的 LIKE 关键 字 。 


但 是 ， 我 们 反而 有 机 会 介绍 一 些 Hive 的 内 置 函数 。 尤 其 是 ， 把 字符 串 转 换 
为 小 写字 母 的 LOWER 函数 ， 提 到 字 符 串 子 串 的 SUBSTR 函数 ， 以 及 返回 字 
符 串 中 字符 总 数 的 LENGTH ERA ° 


我 们 知道 ， 大 多 数 location 记 录 采 用 了 “城市 ， 州 名 缩写 "的 形式 。 所 以 ， 要 
使 用 SUBSTR 提取 字符 串 中 倒数 第 二 个 和 倒数 第 三 个 字符 ， 使 用 length 计 
算 字 答 串 长 度 。 由 于 我 们 无 法 保证 表 中 的 所 有 记录 都 采用 了 统一 的 大 小 写 
形式 ， 因 此 还 要 通过 LOWER 画 数 把 州 名 缩写 和 提取 到 的 字符 串 都 转换 成 小 
写 形式 。 


在 脚本 执行 完毕 之 后 ， 我 们 发 现 输出 结果 与 预期 一 致 ， 它 的 确 包 含 了 目击 
事件 的 发 生日 期 ， 并 用 州 名 全 称 取代 了 州 名 缩写 。 


请 注意 ，LIMIT 子 句 限制 了 输出 的 查询 结果 中 包含 的 行 数 。 这 也 表明 ， 
人 
率 所 采纳 。 


本 例 展 示 了 内 部 联结 的 用 法 。 除 此 之 外 ，Hive 还 支持 左 外 联结 、 右 外 联结 
和 左 半 联结 。 如 何在 Hive 中 使 用 联结 ， 其 中 包含 很 多 微妙 之 处 ， 如 前 述 等 
联结 限制 。 如 有 果 读 者 要 用 到 联结 ， 尤 其 是 在 非常 大 的 表 中 使 用 联结 时 ， 应 
该 首先 通读 位 于 Hive 主 页 的 文档 。 


提示 : 我们 不 是 要 批判 Hive。 联 结 工具 的 功能 非常 强大 ， 但 公正 地 说 ， 
与 其 他 类 型 的 SQL 查询 操作 相 比 ， 编 写 粳 糕 的 联结 或 者 忽视 了 茶 些 天 键 
约束 条 件 的 联结 会 更 多 地 导致 天 系数 据 库 中 止 运行 。 


RIF: 使 用 正则 表达 式 改进 联结 


除了 刚才 用 到 的 字符 串 函 数 之 外 ，Hive 还 提供 了 类 似 RLIKE 和 
REGEXP_EXTRACT 的 函数 ， 这 些 函 数 文 持 在 Hive 中 使 用 类 似 Java 中 的 正则 
和 


Hive 和 SQL 视图 


Hive 还 支持 男 一 个 功能 强大 的 SQL 特 性 一 一 视图 。 在 用 户 通 过 SELECT 语句 
指定 逻辑 表 (不 是 静态 表 ) 的 内 容 的 时 候 ， 视 图 特别 有 用 ， 后 续 的 查询 语 
句 就 可 针对 这 个 包含 基础 数据 的 动态 视图 (这 也 是 视图 一 词 的 由 来 ) 运 
行 。 


8.11 ”实践 环节 : 使 用 视图 


我 们 可 以 使 用 视图 隐藏 相关 的 查询 复 洒 性 ， 例 如 上 例 中 执行 的 联结 操作 的 
复 洒 性 。 接 下 来 ， 我 们 创建 视图 实现 该 功能 。 


1. 把 下 列 语句 保存 为 view .hql 脚本 。 


CREATE VIEW IF NOT EXISTS usa sightings (sighted, reported, shape, 
state) 

AS select ti.sighted, ti.reported, ti.shape, t2.full name 

FROM ufodata t1 JOIN states t2 

ON (LOWER(t2.abbreviation) = LOWER(substr( ti.sighting location, 
(LENGTH(ti.sighting location)-1)))) ; 


2. 执行 view.hql 脚本 » 


$ hive -f view.hgl 


脚本 的 运行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/lib/hive-common-0.8.1.jar!/hive-log4j.properties 

Hive history 
file-/tmp/hadoop/hive job log hadoop 201203040557 1017700649.txt 
OK 

Time taken: 5.135 seconds 


3. 再 次 执行 view .hql 脚本 。 


$ hive -f view.hql 


脚本 的 运行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/lib/hive-common-0.8.1.jar!/hive-log4j.properties 

Hive history 
file-/tmp/hadoop/hive job log hadoop 201203040557 851275946.txt 
OK 

Time taken: 4.828 seconds 


4. 针对 该 视图 执行 一 个 测试 查询 。 


$ hive -e "select count(state) from usa_sightings where state = 
'California'" 


上 述 碍 询 语句 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/lib/hive-common-0.8.1.jar!/hive-log4j.properties 

Hive history 
file-/tmp/hadoop/hive job log hadoop 201203040558 1729315866.txt 
Total MapReduce jobs - 2 

Launching Job 1 out of 2 


2012-03-04 05:58:12,991 Stage-1 map = 0%, reduce - 096 
2012-03-04 05:58:16,021 Stage-1 map = 5096, reduce - 096 
2012-03-04 05:58:18,046 Stage-1 map = 100%, reduce - 096 
2012-03-04 05:58:24,092 Stage-1 map = 100%, reduce - 10096 
Ended Job - job 201203040432 0027 

Launching Job 2 out of 2 

2012-03-04 05:58:33,650 Stage-2 map = 0%, reduce - 096 
2012-03-04 05:58:36,673 Stage-2 map = 100%, reduce - 096 
2012-03-04 05:58:45,730 Stage-2 map = 100%, reduce - 10096 


Ended Job - job 201203040432 0028 

MapReduce Jobs Launched: 

Job 0: Map: 2 Reduce: 1 HDFS Read: 75416863 HDFS Write: 116 
SUCESS 

Job 1: Map: 1 Reduce: 1 HDFS Read: 304 HDFS Write: 5 SUCESS 
Total MapReduce CPU Time Spent: © msec. 

OK 

7599 

Time taken: 47.03 seconds 


5. 删除 视图 。 


$ hive -e "drop view usa sightings" 


该 命令 的 执行 结果 如 下 所 示 。 


OK 
Time taken: 5.298 seconds 


原理 分 析 


首先 ， 我 们 使 用 CREATE VIEW 语句 创建 了 一 个 视图 。 它 与 CREATE 
TABLE 类 似 ， 但 有 两 个 主要 区 别 : 


。 列 定义 中 仅 包 括 列 名 ， 相 关 查 询 会 确定 各 列 的 数据 类 型 ; 
。 通过 AS 子 句 中 指定 的 SELECT 语句 生成 视图 o 


我 们 使 用 上 例 中 用 到 的 联结 语句 生成 视图 ， 因 此 ， 实 际 上 ， 在 创建 表 的 过 
| 2s 点 字段 回 州 名 全 称 的 转换 ， 而 没有 直接 要 求 用 户 执行 这 个 标 
准 化 过 


可 选 的 IF NOT EXISTS 子 句 TRET OREATE TABLE 语句 ) 意 
味 着 ， 如 果 该 视图 已 经 存在 的 话 ，Hive 会 忽视 CREATE VIEW 语句 。 如 果 不 
Du UR 重复 创建 相同 的 视图 会 引发 错误 ， 这 并 不 总 是 我 们 想 执行 


接 看 ， 我 们 执行 了 两 次 该 脚本 来 创建 视 岁 ， 同 时 也 验证 了 使 用 IF NOT 
EXISTS 子 句 可 以 防范 某 些 错误 ， 这 正 是 我 们 所 和 希望 的 。 


成 功 创建 视图 之 后 ， 我 们 接 下 来 对 它 执行 一 次 查询 操作 。 本 例 中 ， 我 们 仅 
统计 了 发 生 在 加 利 福 尼 亚 州 的 UFO 目 击 事件 次 数 。 上 例 中 用 于 生成 

MapReduce 作 业 的 那么 多 Hive 语 句 现 在 变 成 了 一 行 语句 ， 针对 该 视图 的 查询 
需要 两 个 链 式 MapReduce 作 业 。 认 证 分 析 上 述 查 询 语 句 和 视图 定义 ， 就 会 发 
现 并 没什么 值得 惊奇 的 。 不 难 想象 ， 上 壕 视 图 是 通过 第 一 个 MapReduce 作 业 
实现 的 ， 它 的 输出 作为 下 个 统计 UEFO 目 击 事件 总 数 的 查询 语句 的 输入 ， 该 


查询 语言 的 效果 与 第 二 个 MapReduce 作 业 相 同 。 因 此 ， 读 者 会 发 现 ， 这 个 两 
阶段 的 作业 的 执行 时 间 要 大 于 之 前 任何 查询 的 执行 时 间 。 


实际 上 ，Hive 的 智能 程度 远 高 于 此 。 如 果 视 图 创建 语句 中 可 以 包含 外 部 查 
询 的 话 ，Hive 只 会 生成 并 运行 一 个 MapReduce 作 业 。 由 于 手工 开发 系列 协 
同 操作 的 MapReduce 作 业 需 要 耗费 时 间 ， 而 Hive 的 一 个 巨大 优势 束 在 于 它 季 
省 了 这 些 开 发 时 间 。 尽 管用 户 编写 的 MapReduce 作 业 的 运行 效率 可 能 更 高 ， 
Hive 可 以 在 期 带 助 用 户 判 完 哪个 作业 是 有 用 的 。 通 过 运行 一 个 效率 不 高 
的 Hive 碍 询 束 可 以 判定 某 个 想法 是 否 与 预想 的 一 致 ， 而 读者 耗费 一 天 时 间 
开发 MapReduce 作 业 最 终 无 非得 到 相同 结论 我 们 认为 第 一 个 方案 稍 好 一 


我 们 曾经 提 到 过 ， 视 图 会 掩盖 SQL 语句 的 复杂 性 ， 这 通常 意味 着 执行 视图 
ZB 很 但 时 间 。 对 于 大 规模 生产 工作 来 说 ， 读 者 不 得 不 优化 SQL 语句 ， 
有 了 时 可 能 需要 彻底 放弃 使 用 视图 。 


在 查询 执行 结束 之 后 ， 我 们 通过 DROP VIEW 语句 删 掉 了 视图 ， 这 再 次 说 明 
HiveQL 和 SQL 在 处 理 表 和 视图 时 的 相似 性 。 


处 理 Hive 中 的 畸形 数据 


细心 的 读者 可 能 已 经 发 现 ， 上 例 中 通过 查询 得 出 的 加 利 福 尼 亚 州 发 生 的 
UFO 目 击 事件 总 数 与 第 4 章 的 结果 不 一 致 。 这 是 为 什么 呢 ? 


回想 一 下 ， 在 第 4 章 运行 Hadoop Streaming 或 Java MapReduce 之 前 ， 我 们 通 
SOUS BE TWO ERCRORDERORE - 之 后 在 处 理 数据 时 ， 我 们 使 用 了 
更 为 精确 的 正则 表达 式 从 地 点 字段 提取 双 字 符 形式 的 州 名 缩写 。 但 是 在 使 
用 Hive 执 行 相同 任务 时 ， 我 们 没有 预 处 理 数据 ， 同 时 采用 的 提取 州 名 缩写 
的 方法 也 较为 粗糙 。 


对 于 后 者 ， 我 们 之 前 也 曾经 提 到 ，Hive 支 持 正则 表达 式 ， 可 以 使 用 它 来 更 
精细 地 提取 州 名 缩写 。 而 对 前 者 而 言 ， 我 们 充其量 被 迫 在 许 多 查询 语句 中 
加 入 WHERE 子 句 进行 复杂 的 验证 。 

与 上 述 解决 方案 不 同 ， 常 见 的 模式 是 在 数据 导入 Hive 之 前 进行 数据 预 处 


理 。 例 如 ， 在 本 例 中 ， 我 们 可 以 运行 一 个 MapReduce 作 业 去 掉 输 入 文件 中 的 
所 有 上 畸形 记录 ， 并 运行 男 一 个 MapReduce 作 业 提 前 完成 地 点 字段 的 标准 化 。 


RAF: 实现 上 述 方 案 


编写 一 两 个 MapReduce 作 业 对 输入 数据 进行 预 处 理 ， 生 成 一 个 经 过 净化 的 更 
适合 直接 导入 Hive 的 输入 文件 。 然 后 编写 一 个 脚本 执行 上 述 作 业 ， 创 建 一 
个 Hive 表 ， 并 把 者 文件 导入 这 个 表 。 通 过 上 述 过 程 你 会 发 现 ， 使 用 脚本 把 
Hadoop 和 Hive 整 合 到 一 起 并 不 困难 ， 但 其 功能 却 非常 强大 。 


8.12 ”实践 环节 :， 导 出 查询 结果 


刚才 ， 我 们 把 大 量 数 据 导入 Hive 并 通过 查询 语句 从 中 提取 了 少量 数据 。 我 
们 也 可 以 导出 大 数据 集 ， 下 面 来 看 一 个 例子 。 


1. 重新 创建 刚才 用 到 的 视图 。 


$ hive -f view.hql 


巴 下 列 语 句 保存 为 export .hql 文 件 。 


e 


2. 


INSERT OVERWRITE DIRECTORY '/tmp/out' 
SELECT reported, shape, state 

FROM usa sightings 

WHERE state - 'California' ; 


3. ff export.hql 脚本 » 


$ hive -f export.hq1 


该 脚本 的 执行 结果 如 下 所 示 。 


2012-03-04 06:20:44,571 Stage-1 map = 100%, reduce = 100% 
Ended Job = job 201203040432 0029 

Moving data to: /tmp/out 

7599 Rows loaded to /tmp/out 

MapReduce Jobs Launched: 

Job 0: Map: 2 Reduce: 1 HDFS Read: 75416863 HDFS Write: 
210901 

SUCESS 

Total MapReduce CPU Time Spent: 0 msec 

OK 

Time taken: 46.669 seconds 


| 


4. 查看 指定 的 输出 路 径 。 


$ hadoop fs -ls /tmp/out 


结果 如 下 所 示 。 


Found 1 items 


-rw-r--r-- 3 hadoop supergroup 210901 .. /tmp/out/000000 1 


5. 检查 输出 文件 。 


$ hadoop fs -cat /tmp/out/000000 1 | head 


结果 如 下 所 示 。 


20021014 light_California 
other California 
egg. California 
sphere California 
light California 
other California 
light California 


20050224 
20021001 
20030527 
20050813 
20040701 
20031007 


原理 分 析 


在 重复 使 用 上 个 视图 之 后 ， 我 们 新 建 了 一 个 HiveQL 脚 本 ， 该 脚本 使 用 了 
INSERT OVERWRITE DIRECTORY 命令 。 顾 名 思 义 ， 该 脚本 把 后 续 查 询 语 
句 的 执行 结果 写 入 指定 位 置 。0VERWRITE 修饰 语 也 是 可 选 的 ， 它 指明 是 否 
要 删除 输出 目录 下 的 已 有 内 容 。 跟 在 INSERT 命令 后 面 的 SELECT 语句 生成 
了 要 写 入 输出 位 置 的 数据 。 本 例 中 ， 我 们 针对 基于 联结 创建 的 视图 执行 查 
询 操作 ， 它 说 明了 查询 语句 是 如 此 的 复杂 e 


另 一 个 可 选 的 修饰 语 是 LOCAL ， 如 有 果 需 要 把 输出 数据 写 入 运行 Hive 命 令 的 
本 地 文件 系统 而 不 是 HDFS 的 话 ， 用 户 就 可 选用 该 修饰 语 。 


在 运行 上 述 脚 本 的 时 候 ，MapReduce 作 业 输 出 的 绝 大 部 分 内 容 符 合 预期 ， 但 
多 了 一 行内 容 ， 它 显示 的 是 已 癌 指 定 输出 位 置 导 出 的 数据 总 行 数 。 


脚本 运行 完毕 之 后 ， 我 们 转 到 输出 路 径 ， 碍 看 结果 文件 是 否 保 存在 该 目录 
下 ， 并 检查 其 内 容 ， 绪 采 与 预期 一 致 。 


提示 : ”因为 Hive 默 认 使 用 ASCII 码 0001 (\a”) 作 为 输入 文本 文件 的 分 隔 符 ， 
所 以 它 在 输出 文件 中 也 使 用 ASCII 码 0001(\a") 作 为 默认 分 隔 符 ， 如 上 例 所 
不 o 


用 户 还 可 以 使 用 INSERT 命令 把 查询 结果 插入 表 中 ， 我 们 搂 下 来 会 看 到 这 种 
例子 。 但 在 此 之 前 ， 我 们 需要 首先 解释 一 个 将 要 用 到 的 概念 。 


表 分 区 


我 们 之 前 曾 提 到 过 ， 在 一 段 较 长 的 时 间 内 ， 人 们 对 粒 料 的 联结 语句 评价 很 
甜 ， 因 为 它 会 导致 天 系数 据 库 耗 费 大 量 时 间 去 完成 不 必要 的 工作 。 此 外 ， 
也 会 听 到 关于 查询 的 类 似 非议 ， 因 为 查询 操作 需要 执行 全 表 扫 描 ， 也 就 是 
说 ， 要 逐一 访问 表 中 的 每 行 数据 ， 而 无 法 使 用 索引 直接 访问 感 兴趣 的 行 。 


对 于 存储 在 HDFS 并 映 喘 到 Hive 表 中 的 数据 ， 一 般 情况 下 基本 上 部 依赖 于 全 
表 扫 描 。 由 于 无 法 将 数据 分 割 为 更 有 规律 的 、 可 直接 访问 用 户 感 兴趣 的 数 
据 子 集 的 结构 ，Hive 只 能 处 理 整 个 数据 集 。 对 大 约 为 70 MB 的 UFO 文 件 来 
讲 ， 问 题 并 不 大 ， 因 为 Hive 只 用 了 几 十 秒 束 完成 了 整个 文件 的 处 理 任务 。 
人 
É: 


下 像 传 统 天 系数 据 库 一 样 ，Hive 可 以 基于 虚拟 列 的 值 对 表 进 行 分 区 操作 ， 
这 些 虚 拟 列 的 值 还 会 用 于 后 续 的 查询 语句 。 


寺 别 是 ， 当 新 建 一 个 表 时 ， 用 户 可 指定 一 列 或 多 列 作为 分 区 列 ， 然 后 在 把 
数据 导入 表 时 ， 这 些 列 的 值 将 决定 数据 会 被 写 入 哪个 分 区 。 


对 每 天 都 要 接收 大 量 数据 的 表 而 言 ， 最 常用 的 分 区 案 上 略 就 是 使 用 日 期 列 作 
为 分 区 列 。 之 后 我 们 束 可 以 限制 查询 语句 只 处 理 某 个 特定 分 区 内 的 数据 。 

Hive 在 后 台 把 每 个 分 区 的 数据 存储 到 上 自身 路 人 径 和 文件 中 ， 这 样 ， 它 束 可 以 

使 用 MapReduce 作 业 只 处 理 用 户 感 兴趣 的 数据 。 通 过 使 用 多 个 分 区 列 ， 用 户 
可 以 创建 一 个 多 层 结 构 ， 对 于 需要 频繁 查询 一 小 部 分 数据 的 大 表 而 言 ， 很 
有 必要 花 一 些 时 间 选 择 一 个 最 佳 的 分 区 抹 上 略 。 


对 UFO 数 据 集 而 言 ， 我 们 使 用 目击 事件 发 生 的 年 份 作为 分 Pe 但 需要 使 
用 一 些 不 太 常 用 的 特性 来 使 其 具有 可 操作 性 。 因 此 ， 在 介绍 完 这 部 分 内 容 
之 后 ， 我 们 接 下 来 要 实现 一 些 分 区 。 


8.13 ”实践 环节 : 制作 UFO 目 击 事件 分 区 表 


接 下 来 ， 我 们 将 为 UFO 数 据 新 建 一 个 表 ， 以 说 明 表 分 区 的 实用 性 
1. 把 下 列 查询 语句 保存 到 createpartition.hql 脚本 文件 。 


CREATE TABLE partufo(sighted string, reported string, sighting. 
location string,shape string, duration string, description string) 
PARTITIONED BY (year string) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\t' ; 


2. 把 下 列 查询 语句 保存 到 insertpartition.hql 脚本 文件 。 


SET hive.exec.dynamic.partition-true ; 
SET hive.exec.dynamic.partition.mode-nonstrict ; 


INSERT OVERWRITE TABLE partufo partition (year) 

SELECT sighted, reported, sighting location, shape, duration, 
description, 

SUBSTR(TRIM(sighted), 1,4) FROM ufodata ; 


3. 创建 分 区 表 。 


$ hive -f createpartition.hql 


上 上 述 命 令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/lib/hive-common-0.8.1.jar!/hive-log4j.properties 

Hive history 
file-/tmp/hadoop/hive job log hadoop 201203101838 17331656.txt 
OK 

Time taken: 4.754 seconds 


| 


4. 检查 刚 创建 的 表 。 


OK 

sighted string 

reported string 
sighting_location string 


shape string 

duration string 
description string 

year string 

Time taken: 4.704 seconds 


5. 在 表 中 插入 数据 。 


$ hive -f insertpartition.hql 


屏幕 上 将 会 显示 如 下 内 容 。 
Total MapReduce jobs = 2 


Ended Job = job 201203040432 0041 

Ended Job - 994255701, job is filtered out (removed at runtime). 
Moving data to: hdfs://head:9000/tmp/hive-hadoop/hive 2012-03- 
10 18-38-36 380 1188564613139061024/-ext-10000 

Loading data to table default.partufo partition (year-null) 
Loading partition {year=1977} 

Loading partition {year=1880} 

Loading partition {year=1975} 

Loading partition {year=2007} 

Loading partition {year=1957} 


Table default.partufo stats: [num partitions: 100, num files: 100, 
num rows: 0, total size: 74751215, raw data size: 0] 

61393 Rows loaded to partufo 

OK 

Time taken: 46.285 seconds 


6. 对 某 个 分 区 数据 执行 count 命令 。 


$ hive -e "select count(*)from partufo where year = !'1989'" 


其 结 采 如 下 所 示 。 


Time taken: 26.56 seconds 


7. 在 未 分 区 表 上 执行 类 似 查 询 。 


$ hive -e "select count(*) from ufodata where sighted like 
'19899?6' " 


其 结 采 如 下 所 示 。 


Time taken: 28.61 seconds 


8. 列 出 保存 分 区 表 的 Hive 目 录 下 的 所 有 文件 。 


$ Hadoop fs -1s /user/hive/warehouse/partufo 


其 结 采 如 下 所 示 


o 


Found 100 items 

drwxr -xr -x - hadoop supergroup © 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-0000 

drwxr -xr -x - hadoop supergroup 0 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1400 

drwxr -xr -x - hadoop supergroup © 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1762 

drwxr -xr -x - hadoop supergroup 0 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1790 

drwxr -xr -x - hadoop supergroup © 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1860 

drwxr -xr -x - hadoop supergroup © 2012-03-10 18:38 / 


user/hive/warehouse/partufo/year-1864 
drwxr -xr -x - hadoop supergroup 0 2012-03-10 18:38 / 
user/hive/warehouse/partufo/year-1865 


原理 分 析 


本 例 中 ， 我 们 创建 了 两 个 HiveQL 脚 本 文件 。 第 一 个 脚本 新 建 了 一 个 分 区 
表 。 可 以 看 出 ， 它 与 前 面 提 到 的 CREATE TABLE 语句 非常 接近 ， 区 别 在 于 
加 入 了 PARTITIONED BY 4» 


在 执行 完 第 一 个 脚本 之 后 ， 我 们 检查 了 表 结 构 ， 从 HiveQL 的 角度 来 看 ， 该 
表 很 像 之 前 提 到 的 ufodata 表 ， 只 是 多 了 一 列 (year) 。 这 样 的 话 ， 当 在 
WHERE 子 句 中 指定 条 件 时 ， 系 统 会 同样 对 year 列 进行 处 理 ， 即 使 该 列 数据 
并 不 存在 于 硬盘 数据 文件 中 。 


我 们 执行 第 二 个 脚本 ， 它 把 数据 导入 到 分 区 表 中 。 这 里 需要 注 


en 


首先 ， 我 们 看 到 INSERT 命令 可 以 用 于 表 操 作 ， 就 像 上 一 节 用 于 目录 操作 一 
样 。INSERT 语句 指定 了 数据 的 目的 位 置 ， 跟 在 INSERT 后 面 的 SELECT 语 
句 从 已 有 表 或 视图 中 提取 所 需 数据 。 


本 节 使 用 的 分 区 方式 利用 了 Hive 的 一 个 新 功能 一 一 动态 分 区 。 在 大 多 数 情 
况 下 ， 分 区 子 句 应 包含 明确 的 year 列 的 值 。 尽 管 这 种 方法 可 以 把 某 一 天 的 数 
据 导入 基于 日 期 的 分 区 表 ， 但 它 不 适用 于 本 例 中 的 数据 文件 类 型 ， 因 为 要 
所 有 行 的 数据 插入 众多 分 区 表 中 。 通 过 指定 分 区 列 而 不 设 定 具体 值 ，Hive 
会 使 用 SELECT 语句 返回 的 year 列 的 值 自动 生成 分 区 名 。 


这 束 解 释 了 为 什么 会 在 SELECT 语句 末尾 出 现 一 个 奇怪 的 子 句 。 在 指明 
ufodata 表 的 所 有 标准 列 之 后 ， 我 们 加 入 一 个 声明 ， 它 从 sighted 列 的 内 容 
中 提取 前 4 个 字 世 。 请 记 住 ， 因 为 分 区 表 把 year 分 区 列 视 为 Ufodata 表 的 第 
7 列 ， 这 就 意味 着 我 们 要 把 每 行 中 sighted 字 符 串 中 的 年 度 值 指定 为 year 列 的 
值 。 因 此 ， 我 们 在 原来 每 行内 容 的 基础 上 加 上 有 目击 事件 发 生 的 年 份 ， 然 后 
把 这 些 数据 插入 分 区 表 。 


为 了 证 明 上 述 脚 本 按照 预期 工作 ， 我 们 接着 进行 了 两 次 查询 操作 。 其 中 一 
次 查询 对 分 区 表 中 1989 年 的 所 有 记录 进行 计数 ， 另 一 次 查询 对 ufodata 表 
E 。 我 们 曾 用 “1989” 字 符 串 动态 生成 分 
X o 


可 以 看 出 ， 这 两 次 查询 的 结果 完全 一 致 ， 这 就 证 实 了 我 们 的 分 区 集 略 按照 
预期 工作 。 我 们 还 注意 到 ， 对 分 区 表 的 查询 要 稍 快 于 对 非 分 区 表 的 查询 ， 
尽管 二 者 速度 差别 并 不 明显 。 这 可 能 是 因为 在 处 理 这 种 小 规模 数据 集 的 时 
候 ，MapReduce 的 局 动 时 间 在 整个 作业 的 运行 时 间 中 占据 较 大 的 比率 。 


最 后 ， 我 们 查看 了 Hive 为 分 区 表 存 储 数 据 的 目录 ， 发 现 该 目录 下 共有 100 个 
动态 生成 的 分 区 表 。 今 后 使 用 HiveQL 语 句 引 用 某 个 特定 分 区 ，Hive 会 执行 
一 次 意义 非凡 的 优化 一 一 它 只 会 处 理 在 相应 的 分 区 路 径 下 的 数据 。 


8.13.1 分 桶 、 归 并 和 排序 


本 节 不 会 详细 介绍 这 些 内 容 ， 但 Hive 系 统 并 非 只 能 采用 多 层 分 区 列 这 种 方 

法 对 数据 子 集 的 访问 过 程 进行 优化 。 在 一 个 分 区 中 ，Hive 提 供 了 进一步 将 

数据 行 聚 集 到 桶 中 的 方法 ， 它 通过 对 CLUSTER BY 指定 的 列 使 用 哈 希 函数 
实现 。 用 户 还 可 使 用 SORT BY 对 指定 列 进行 排序 ， 经 过 排序 的 数据 行 以 有 
序 形式 存储 在 桶 中 。 例 如 ， 我 们 可 以 基于 UFO 形 状 对 数据 分 桶 ， 在 每 个 桶 

中 按 目 击 事件 发 生 的 日 期 进行 排序 。 


读者 在 第 一 天 使 用 Hive 的 时 候 肯 定 不 会 用 到 这 些 功能 ， 但 是 如 果 用 户 要 处 
理 的 数据 集 越 来 越 大 ， 采 用 这 种 优化 方式 可 以 显著 缩短 查询 的 处 理 时 间 。 
8.13.2 用户 自 定 义 函 数 

Hive 人 允许 用 户 在 HiveQL 执 行 的 过 程 中 直接 挂 接 目 定义 代码 。 这 个 功能 既 可 
以 通过 新 增 库 函数 实现 ， 也 可 以 通过 指定 类 似 于 Hadoop Streaming 的 Hive 
transform 实现 » 本 万 我 们 将 学 习 用 户 自 定 义 函 数 ， 添 加 目 定义 代码 可 能 是 
用 户 在 学 习 Hive 的 早期 阶段 最 需要 的 功能 。Hive transform 是 一 种 较为 复杂 


的 机 制 ， 用 户 可 用 它 添加 在 Hive 运 行 时 调用 的 map 和 reduce 类 。 如 果 用 户 对 
Hive transform 感 兴趣 的 话 ，Hive wiki 对 其 进行 了 详细 说 明 。 


8.14 ”实践 环节 : 新 增 用 户 自 定义 函数 
接 下 来 ， 我 们 演示 如 何 使 用 UDF 创 建 并 调用 自 定义 Java 代 码 。 
1. 把 以 下 代码 保存 为 City .java 。 


package com.kycorsystems ; 


import java.util.regex.Matcher ; 
import java.util.regex.Pattern ; 
import org.apache.hadoop.hive.qgl.exec.UDF ; 


import org.apache.hadoop.io.Text ; 


public class City extends UDF 

t 
private static Pattern pattern - Pattern.compile( 

"[a-zA-z]*?[NN. ]*[a-zA-z]*?[NN, ][^a-zA-Z]") ; 


public Text evaluate( final Text str) 
1 
Text result ; 
String location 
Matcher matcher 


str.toString().trim() ; 
pattern.matcher(location) ; 


if (matcher.find()) 


1 
result - new Text(location. substring(matcher.start(), matcher.end()-2)) 
} 
else 
{ 
result = new Text("Unknown") 
} 


return result ; 


2. 编译 City,java ° 


$ javac -cp hive/lib/hive-exec-0.8.1.jar:hadoop/hadoop-1.0.4-core. 
jar -d . City.java 


3. 把 生成 的 类 文件 打包 到 JAR 文 件 中 。 


$ jar cvf city.jar com 


上 述 命 令 的 输出 如 下 所 示 。 


added manifest 
adding: com/(in = 0) (out= O)(stored 0%) 


adding: com/kycorsystems/(in = 0) (out= O)(stored 0%) 
adding: com/kycorsystems/City.class(in = 1101) (out= 647)(deflated 4196) 


4. 启动 交互 式 的 Hive shell ° 


5. 把 city .jar 添加 到 Hive classpath ° 


hive> add jar city.jar; 


上 壕 命令 的 执行 结 采 如 下 所 示 : 


Added city.jar to class path 
Added resource: city.jar 


6. 确认 city .jar 已 添加 到 Hive calsspath ° 


hive» list jars; 


上 壕 命令 的 执行 结 采 如 下 所 示 。 


file:/opt/hive-0.8.1/lib/hive-builtins-0.8.1.jar 


city.jar 


7. 为 新 加 入 的 代码 重新 注册 一 个 函数 名 。 


hive» create temporary function city as 'com.kycorsystems.City' ; 


上 壕 命令 的 执行 结 采 如 下 所 示 。 


OK 
Time taken: 0.277 seconds 


8. 使 用 新 函数 执行 一 次 查询 。 


select city(sighting location), count(*) as total 
from partufo 


where year - '1999' 
group by city(sighting location) 
having total » 15 ; 


述 命令 的 执行 结 采 如 下 所 示 。 


Total MapReduce jobs = 1 
Launching Job 1 out of 1 
OK 

Chicago 19 

Las Vegas 19 

Phoenix 19 

Portland 17 

San Diego 18 

Seattle 26 

Unknown 34 

Time taken: 29.055 seconds 


原理 分 析 


ld E .apache.hadoop.hive.exec.ql.UDF (User 
Defined Function) 基 类 进行 了 扩展 。 在 该 类 中 ， 我 们 定义 了 一 个 返回 指定 
地 点 守 从 让 对 应 的 城市 名 的 下 而 地 点 字符 串 的 模式 与 前 儿 节 完全 相 


实际 上 ，UDF 并 不 会 限制 evaluate 函数 的 参数 类 型 ， 相 反 ， 用 户 可 以 上 自由 添 
加 带 有 任意 类 型 的 参数 和 返回 类 型 的 自 定义 函数 。Hive 使 用 Java 反 射 

(Reflection) 技术 选择 正确 的 evaluate 函 数 。 如 果 用 户 想 达 到 更 精细 的 选 
择 ， 可 以 自行 开发 实现 UDFMethodResolver 接口 的 实用 类 。 


上 例 中 用 到 的 正则 表达 式 有 点 难以 理解 ， 我 们 只 十 想 权 提取 跟 在 州 名 缩写 
后 面 的 城市 名 ， 而 该 正则 表达 式 却 如 此 复杂 。 然 而 ， 城 市 名 的 描述 方式 不 
一 致 以 及 对 多 个 单词 组 成 的 名 字 的 处 理 ， 造 成 了 上 述 复杂 的 正则 表达 式 。 
除 此 之 外 ， 本 例 中 实现 的 类 较为 简单 


接着 ， 我 们 编译 了 City .java 文件 ， 并 在 此 过 程 中 加 入 一 些 必需 的 Hive 和 
Hadoop 的 JAR 文 件 。 


提示 : 请 记 住 ， 如 果 用 户 使 用 的 Hadoop 和 Hive 版 本 与 作 考 的 版 本 不 同 ， 
那么 hive/lib/hive-exec-0.8.1.jar 和 hadoop/hadoop-1.0.4-core.jar 的 文件 名 可 能 
会 有 区 别 。 


紧 接着 ， 我 们 把 生成 的 类 文件 打包 成 JAR 文 件 ， 并 启动 Hive 交 互 式 shell 。 


在 创建 JAR 文 件 之 后 ， 我 们 需要 配置 Hive 使 用 该 文件 。 这 个 过 程 分 两 个 步 又 
进行 。 首 先 ， 我 们 使 用 add jar 命令 把 新 建 JAR 文 件 添加 a 到 Hive 使 用 的 
classpath。 在 此 之 后 ， 我 们 使 用 List jars 命令 确认 新 JAR 文 件 已 经 注册 
到 系统 中 。 


添加 JAR 文 件 只 是 告诉 Hive 存 在 一 些 代码 ， 并 没有 指明 我 们 希望 在 HiveQL 

语句 中 以 何 种 方式 引用 这 些 函 数 。CREATE FUNCTION 完成 的 就 是 这 个 工 
作 一 一 把 Java 类 与 函数 名 天 联 起 来 ， 本 例 中 ，CREATE FUNCTION 将 city 
函数 与 提供 了 该 函数 实现 代码 的 com,kycorsystems .City 类 关联 起 来 。 


在 把 JAR 文 件 添加 到 classpath， 并 创建 了 city 画 数 之 后 ， 我 们 可 以 在 
HiveQL 语 句 中 引用 city( ) KHAT ° 


接 下 来 ， 我 们 运行 一 个 示例 查询 ， 以 说 明 city( ) 函数 工作 正常 。 回 想 一 
下 ， 在 UFO 目 击 事件 分 区 表 中 ， 我 们 最 布 望 在 哪个 地 方 最 第 出 现 UFO， 
为 所 有 人 都 想 尽早 解 开 这 个 千年 之 谜 。 


从 HiveQL 可 以 看 出 ， 我 们 可 以 像 使 用 其 他 函数 一 样 使 用 新 加 的 用 户 目 定义 
函数 ， 而 且 通 常 只 能 依靠 用 户 对 标准 Hive 函 数 库 的 熟悉 程度 ， 来 区 分 哪些 
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结果 显示 ， 美 国 西北 部 和 西南 部 集中 出 现 了 UFO 目 击 事 件 ，Chicago 则 是 
例外 。 但 是 ， 结果 中 还 包 合 一 坚 无 法 确定 城市 名 的 数据 ， 我 们 需要 进 一 in 
分 析 其 原因 ， 是 由 于 出 现 UFO 的 地 方 不 在 美国 范围 内 还 是 正则 表达 式 不 ig 
完善 需要 进一步 改进 ? 


8.14.1 是否 进 行 预 处 理 


我 们 回想 一 下 之 前 提 到 的 一 个 话题 ， 是 否 需 要 在 数据 导入 Hive 之 前 对 其 进 
行 预 处 理 ， 去 除 畸 形 数 据 。 从 上 个 例子 可 以 看 出 ， 我 们 可 以 使 用 一 系列 用 
户 自 定义 函数 在 进行 数据 处 理 的 过 程 中 完成 类 似 的 数据 清洗 工作 。 例 如 ， 
我 们 可 以 加 入 用 户 自 定义 的 state 和 country 函数 ， 从 目击 事件 发 生 的 地 
点 字符 串 中 提取 或 推导 出 所 在 的 地 区 和 国家 。 很 难说 哪 种 方法 更 好 一 些 ， 
但 有 一 些 指导 原则 可 以 帮助 用 户 决 定 选用 哪 种 方法 。 


忠 像 我 们 用 到 的 例子 一 样 ， 如 果 由 于 种 种 原因 无 法 处 理 完整 的 地 点 字符 
» ， 仅 能 从 中 提取 几 个 明显 的 组 成 部 分 ， 那 么 可 能 有 必要 进行 数据 预 处 

o 通过 预 处 理 我 们 可 以 把 要 访问 的 列 标准 化 为 更 可 预料 的 格式 ， 甚 至 把 
z 分 成 独立 的 城市 /地 区 /国家 这 几 列 ， 而 不 必 每 次 都 执行 代价 较 大 的 文本 处 
E: 


但 是 ， 如 采 在 HiveQL 中 经 营 要 用 到 某 一 列 的 原始 数据 ， 并 且 仅 在 特殊 情况 
下 才 需 要 对 该 列 数据 进行 处 理 ， 那 么 对 整个 数据 集 进行 代价 很 大 的 预 处 理 
下 没 多 大 好 处 。 


基于 上 述 原 则 选用 对 自己 的 数据 和 工作 任务 最 有 利 的 处 理 方案 。 还 要 记 
住 ， 用 户 目 定义 函数 不 仅仅 可 以 执行 这 种 文本 处 理 ， 它 们 可 以 封闭 用 户 想 
对 表 中 数据 执行 的 任何 操作 代码 。 


8.14.2 ”Hive 和 Pig 的 对 比 


在 互联 网 上 搜索 关于 Hive 的 文章 时 ， 经 常会 发 现 人 们 往往 将 Hive 和 另 一 个 
称 为 Pig 的 Apache 项 目 进行 对 比 。 其 中 关于 它们 之 间 对 比 的 最 稼 见 问题 定 
为 什么 二 者 部 存在 ， 什 么 时 候 该 选用 哪 一 个 工具 ， 哪 个 工具 更 好 一 些 ， 以 
及 使 用 哪 种 工具 显得 更 酪 一些。 


二 者 的 相似 之 处 在 于 ，Hive 提 供 了 一 种 类 似 SQL 语 言 的 接口 用 于 数据 处 理 ， 
而 Pig 用 到 了 一 种 叫做 Pig Latin 的 语言 定义 数据 流 流 水 线 。 就 像 Hive 先 把 
HiveQL 翻 译 成 MapReduce， 然 后 执行 这 些 MapReduce 作 业 一 样 ，Pig 会 执行 
类 似 的 代码 生成 过 程 ， 它 把 Pig Latin 脚 本 翻译 为 MapReduce 代 码 。 


二 者 的 最 大 区 别 在 于 对 作业 执行 方式 的 控制 粒度 。HiveQL 就 像 SQL 一 样 ， 
它 只 定义 要 执行 的 操作 ， 却 几乎 不 管 如 何 实现 这 些 操作 。HiveQL 碍 询 规划 
器 人 负责 安排 HiveQL 命 令 的 执行 顺序 ，evaluate 范 数 的 执行 顺序 等 。 Hivefej FiS 
fIBI28 Hi EZH, VBJOLTEBRSAOATUT PEUX RAS PEE SOR SS 

Pig Latin 也 是 在 查询 规划 器 这 一 层 操作 数据 。 


使 用 Hive 和 Pig 都 避免 了 直接 编写 MapReduce 代 人 码 ， 只 不 过 两 种 方法 的 抽象 
方式 不 尽 相 同 。 


到 底 是 选用 Hive 还 是 选用 Pig 最 终 取决 于 用 户 需求 。 如 果 用 户 更 希望 使 用 就 
悉 的 SQL 接 口 操 作 数 据 ， 它 可 以 使 Hadoop 中 的 数据 用 于 更 广泛 的 受众 ， 那 
么 很 明显 应 当选 用 Hive 。 BURA i 人员 以 数据 流水 线 的 方式 考虑 癌 
题 ， 并 需要 对 作业 运行 方式 进行 更 细 粒 度 的 控制 ， 那 么 可 能 Pig 会 是 一 个 更 
好 的 选择 。 Hive 和 Pig 项 目 都 在 寻求 进一步 整合 ， 因 此 ， 天 于 它们 属于 竞争 
天 系 的 错误 观念 会 得 到 改善 。 二 者 作为 相互 补充 的 技术 ， 都 可 降低 执行 
MapReduce 作 业 的 门槛 。 


8.14.3 ”未 提 到 的 内 容 


在 本 章 对 Hive 的 综述 中 ， 我 们 介绍 了 它 的 安装 和 配置 方法 ， 如 何 创建 表 并 

在 表 中 插入 数据 ， 怎样 创建 视图 以 及 如 何 实现 联结 等 内 容 。 我 们 演示 了 如 

` 导出 Hive， 如 何 优化 数据 处 理 过 程 ， 并 人 研究 了 几 个 Hive 内 
ER o 


实际 上 上， 我 们 仅 学 习 了 Hive 的 皮毛 。 我 们 不 仅 没 有 深入 研究 上 述 几 个 话题 
和 相关 概念 ， 甚 至 都 没有 接触 类 似 MetaStore 和 SerDe 的 内 容 。Hive 将 其 配 
置 和 元 数据 存储 在 MetaStore 中 ， 而 SerDe (serialize/deserialize) 则 用 于 从 
JSON 这 样 的 复杂 文件 格式 读 取 数据 。 


Hive 是 一 种 功能 非常 丰富 的 工具 ， 它 提供 了 很 多 复杂 而 义 强 大 的 功能 。 如 
条 读者 认为 Hive 对 目 己 非常 有 用 ， 那 么 建议 读者 在 学 完 本 章 例 于 之 后 ， 伦 
你 还 会 在 那里 发 现 用 户 邮 件 列表 ， 它 是 一 个 
很 好 的 信息 来 源 ， 通 过 它 可 以 获得 别人 的 帮助 。 


8.15 AZ T Amazon Web Services 的 Hive 


弹性 MapReduce 对 Hive 的 支持 力度 很 大 ， 它 提供 了 一 些 特殊 机 制 ， 有 助 于 
Hive 整 合 到 其 他 AWS 服 务 中 。 


a 
CH 


8.16 ”实践 环节 :在 EMR 上 分 析 UFO 数 据 
ETR 我 们 将 通过 在 EMR 平 台 上 分 析 UFO 数 据 来 研究 如 何在 EMR 环 境 中 
Hive ? 


1. 登录 AWS 管 理 控制 台 ， 其 地 址 为 http://aws.amazon.com/console ° 

2. EMR 上 的 每 个 Hive 作 业 流 都 从 一 个 S3 桶 开始 运行 ， 我 们 需要 选择 用 作 
存储 源 数 据 的 桶 。 选 择 S3 以 查看 用 户 账 户 创建 的 桶 列表 ， 之 后 从 中 选 
Ce 。 在 本 例 中 ， 我 们 选用 名 为 garrytluse 


3. 通过 网 页 接口 在 garrytluse 桶 中 新 建 3 个 目 孙 ， 它 们 分 别 是 ufodata ^ 
ufoout 和 ufologs 。 桶 中 内 容 的 列表 如 下 图 所 示 : 


AWIS Management Console » Amazon 53 


[Lr] Estio Boenetelk 57 


EC WC — CloudWatch Elaet« MepRoduco Cloudkront CleudFormation HS ”EastCoeho SQS IAM SHS SES 


z es v 
Croato Bucket Actions v upio 3 Creato Foor — Actone v 
oerrytteu gorryttuse 


SReresn O Prococc @ Trance © Hop 


Sire Last Modified 


tse An amazoncom company 


4. 双击 并 打开 ufodata 目录 ， 在 该 日 录 下 创建 两 个 名 为 ufo 和 states 
的 子 目录 。 


5. 把 下 列 代 码 保 存 为 sS3test .hql 脚本 ， 点 击 ufodata 目录 中 的 Upload 
链接 ， 按 照 提 示 上 传 该 脚本 文件 。 


reported string, sighting location string, 
shape string, 


duration string, description string) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t' 
LOCATION '$[INPUT)/ufo' ; 


CREATE EXTERNAL TABLE IF NOT EXISTS ufodata(sighted string, 


CREATE EXTERNAL TABLE IF NOT EXISTS states(abbreviation string, 
full name string) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\t' 

LOCATION '$[INPUT])/states' ; 


CREATE VIEW IF NOT EXISTS usa sightings (sighted, reported, shape, 
state) 

AS SELECT ti.sighted, ti.reported, ti.shape, t2.full name 

FROM ufodata t1 JOIN states t2 

ON (LOWER(t2.abbreviation) = LOWER(SUBSTR( ti.sighting location, 
(LENGTH(ti.sighting location)-1)))) ; 


CREATE EXTERNAL TABLE IF NOT EXISTS state results ( reported 
string, shape string, state string) 

ROW FORMAT DELIMITED 

FFIELDS TERMINATED BY 'Nt' LINES TERMINATED BY '\n' 

STORED AS TEXTFILE 

LOCATION '$[OUTPUT)/states' ; 


INSERT OVERWRITE TABLE state results 
SELECT reported, shape, state 

FROM usa sightings 

WHERE state - 'California' ; 


Ufodata 目录 中 的 文件 列表 如 下 图 所 示 。 


AWS Management Console - Windows Internet Exolorer 


| C AWS Managert: Conse 
AWS Management Console » Amazon S3 Gerald Turkingon * | hap w 
WE BowieBeonstok 5 Ec2 VPG CloudWich ostie MapReduco CloudFront Cloudformalion RDS Banticaeho SOS JAM SHS SES 


w Create Bucket Actons ~ Q Uposd — «à Creste Folder Actions ~ ` Retesh Qi Prmpetes @ Transfers © Heip 
gere gerryliuse > | ufodata 


Name Size Last Modified 


$74 byt Sat Mar 17 12:59:35 GMT+ 000 2022 


es 


6. 双击 并 打开 states 目录 ， 并 把 之 前 曾 用 到 的 states .txt 文件 上 传 


到 该 目录 。 该 目录 中 的 文件 列表 如 下 图 所 示 。 


7 AWS Menegement Conyale 


AWS Management Console » Amazon 57 


LT] Beste Beunsiak 5 EC?  VPC Coutach Bestie MapReduce CloudPyer CloudFormation ROS EestiCache SOS IAM SNS — SES 


7. 点 击 文件 列表 顶部 的 ufodata 部 件 ， 然 后 返回 该 目录 。 


x Creste Bucket — Actions * Q upora js Creme Folder — Acton v D Retesn O rProoerie: (9 Tranemers 


garytte garrylluse > | Jufodata > | states 
4) states txt 6S4 bytes Set Mar 27 01:57:26 GMT 


T f Use An amazoncom company 


v [4104 “ 


8. 双击 并 打开 ufo 目 孙 ， 把 之 前 兽 用 到 的 ufo ,tsv 文件 上 传 到 该 目录 。 


该 路 径 下 的 文件 列表 如 下 图 所 示 。 


9. 现在 ， 选 择 Elastic MapReduce 并 点 击 Create a New Job Flo 


"EE 


23 


择 Run your own application ， 并 选择 Hive Program， 如 下 图 所 示 。 


ES 


选 


O AWS vienogrmernt Console - Windows Internet Explorer 


DENNE 108 NOW 


reanng 3 job flow to process your data using Amazon Elastic MapReduce is simpia and qui 


ame and selecong its type. 1! you don't akeady have an aoolication you'd lika to run on Amazon Elastic MapReduce. 
ava labe to halo you get staitec 


Job Flow Name“: five i 


test 


Create a Job Flow^: © Run your own ppleaten 


C Run a «ampla application (ens using a farmi SQL KG language, called 
: aep as an abst adaon layer over the MapReduce 


ite Peo ssam mm - So modos: 


you can irteractively execute Hive quenas, 


quenes that has been uploaded to óámazon 55 


pfs am aman coneladic wore dace fone t 


^k. Let's begin by oving your jod * 


A Hive Program onabios rou to croate data processing 
programming model. A Hive Job iow can be ran in one of 


1. Hive Interactive mode wiii start a job fow in which 


?. Hive Script mode will execute a script containing Hive 


owa 


samples are 


0. 点 击 Continue 按钮 ， 之 后 填写 Hive 作 业 流 所 需 的 细节 人 信息。 以 下 图 为 
例 ， 但 要 记 住 把 桶 名 (s3://URLs 的 第 一 部 分 ) 改 为 用 户 刚 刚 设 置 的 


桶 。 


Æ aws Management Console - Windows Internet bqplorer 


AWS Manaaament Console » dmaran Fiastie MasRaduce 
Create a New Job Flow 


SPECIFY PARAME TERS 
@ executo 3 Hive Script 


Script Location *: [3 /asrytlusa/afocata/c3tect hg 


Input Location: [3 7/gsr yt ends 


Output Location: [:3://gsr yt lue oo 


Extra Args: 


tart a^ Interactivo Hivo Sosson 


1. "Aii Continue 按钮 ， 检 查 要 使 用 的 主机 类 型 和 主机 数量 ， 


Gera Tursiotón e relp v 


然后 再 次 点 Y» 


iti Continue 按钮 。 然 后 填写 存放 日 志文 件 的 目录 名 ， 如 下 图 所 示 。 


AWS Mansaement Console » hmaron Flactic MaoRedoce 
r s Create a New Job Flow 


igure your logging optione. Leam morc 
Amazon 53 Log Path [;3 manvi sol 
(Optional): 


Enable Debugging: C Ye e 


Set advanced job flow cpbons. 
ep 


Keep Alive C Y 


hits! jocnsole ans amaron. corrjelasticwapreduzelhowe 14 


12. "E i; Continue 按钮 。 之 后 在 剩余 的 作业 创建 步骤 中 一 直 点 击 Continue 按 
钮 ， 因 为 用 户 无 需 修改 剩余 步骤 中 的 默认 设置 。 最 后 ， 启 动作 业 流 并 
通过 管理 控制 台 查 看 其 进度 。 


13. 一 旦 作业 成 功 完 成 ， 返 回 S3 并 双击 ufoout 目录 。 该 日 录 下 应 该 有 一 
个 states 目录 ， 在 该 日 录 中 有 一 个 名 为 0000000 的 文件 。 双 击 并 下 
载 该 文件 ， 验 证 其 内 容 如 下 所 示 。 


20021014 light California 
20050224 other California 
20021001 egg California 
20030527 sphere California 


原理 分 析 


在 实际 执行 EMR 作 业 流 之 前 ， 我 们 需要 完成 一 些 设置 工作 。 首 先 ， 我 们 使 
用 S3 的 网 页 接口 为 作业 创建 目录 结构 。 我 们 创建 了 3 个 主 目录 ， 分 别 用 于 存 
储 输入 数据 ， 写 入 作业 结果 ， 以 及 存储 EMR 在 执行 作业 流 时 产生 的 日 志 。 


HiveQL 脚 本 中 包含 一 些 本 章 前 几 节 用 到 的 Hive 命 令 ， 本 例 中 对 它们 做 了 一 
些 修 改 。 我 们 为 UFO 目 击 事件 数据 和 州 名 创建 了 两 个 表 ， 并 创建 了 一 个 联 


结 这 两 个 表 的 视图 。 接 着 ， 我 们 创建 了 一 个 没有 源 数据 的 新 表 ， 并 通过 
INSERT OVERWRITE TABLE 语句 把 一 个 查询 的 结果 数据 插入 该 表 。 


该 脚本 的 特别 之 处 在 于 为 每 个 表 指定 LOCATION 子 句 的 方式 。 对 存储 输入 
数据 的 表 而 言 ， 我 们 使 用 相对 于 IN PUT 变量 的 路 径 ; 类似 地 ， 我 们 使 用 相 
对 于 OUTPUT 变量 的 路 径 作为 存储 结果 数据 的 表 的 输出 位 置 。 


请 注意 ，EMR 中 的 Hive 希 望 表 数据 的 位 置 是 一 个 路 径 而 非 文 件 。 这 也 束 解 
释 了 之 前 我 们 为 什么 要 为 每 个 表 都 创建 一 个 子 目 录 ， 然 后 把 特定 源 文件 上 
传 到 相应 目录 中 ， 而 不 十 直接 指定 每 个 表 要 用 的 数据 文件 的 路 人 径 。 


在 S3 桶 中 创建 了 必需 的 文件 和 目录 结构 之 后 ， 我 们 转向 EMR 网 页 控制 台 ， 
并 开始 创建 作业 流 。 


在 指明 我 们 希望 使 用 自 有 Hive 程 序 之 后 ， 我 们 在 一 个 页 面 中 填 入 了 作业 流 
需要 的 一 些 关 键 数据 : 


HiveQL 脚 本 本 身 的 位 置 ; 
输入 数据 所 在 路 径 ; 
写 入 输出 数据 的 目录 。 


HiveQL 肢 本 的 自身 路 径 是 一 个 很 明确 的 路 径 ， 无 需 对 它 进 行 任何 解释 。 但 
AES 答 入 数据 路 至 和 输出 数据 路 人 径 是 如 何 上 映射 为 Hive 脚 本 中 使 用 的 INPUT 
和 OUTPUT 变量 的 ， 理 解 这 一 点 非常 重要 。 


Hive 脚 本 使 用 INPUT 变量 指 代 输 入 路 人 径 ， 这 就 是 我 们 把 包含 UFO 目 击 事件 
数据 的 路 径 写 为 ${INPUT}/ufo 的 原因 。 类 似 地 ，Hive 脚 本 使 用 OUTPUT 
变量 指 代 输出 路 径 。 


我 们 没有 对 默认 的 主机 设置 进行 任何 改动 ， 选 用 了 一 合 较 小 的 主 世 点 主机 
和 两 台 较 小 的 核心 节 扩 主机。 在 下 一 个 页 面 中 ， 我 们 添加 了 作业 流 运 行 过 
程 中 产生 的 日 志 的 存储 位 置 。 


尽管 用 户 可 选择 是 否 输 出 日 志 ， 但 捕获 这 些 日 志 是 有 用 的 ， 尤 其 是 在 运行 
新 脚本 的 早期 阶段 ， 虽 然 在 3 服务 中 存储 这 些 日 志 信息 是 要 付费 的 。EMR 
还 可 以 把 有 索引 的 日 志 数 据 写 入 男 一 个 AWS 服 务 一 一 SimpleDB ， 但 我 们 没 
有 演示 其 使 用 方式 。 


在 完成 作业 流 定 义 之 后 ， 我 们 局 动 该 作业 流 。 在 作业 流 成 功 执行 后 ， 我 们 
Sh 目录 ， 不 出 所 料 ， 该 目录 中 包含 着 作业 流 的 输出 结 


8.16.1 在 开发 过 程 中 使 用 交互 式 作业 流 


在 开发 用 于 EMR 的 新 Hive 脚 本 时 ， 上 市 讲 的 按 批 执行 作业 的 方式 不 太 合 
适 。 通 第 在 作业 流 创建 和 执行 过 程 中 有 几 分 钟 的 延迟 ， 如 末 作 业 失 败 的 
话 ， 会 当 费 EC2 实 例 几 个 小 时 的 开销 。 


与 上 例 中 选择 不 同 的 选项 创建 作业 流 来 运行 Hive 脚 本 不 同 ， 我 们 还 可 以 以 
交互 式 模式 启动 Hive 作 业 流 。 它 可 以 加 快 Hadoop 集 群 的 设置 ， 却 不 需要 脚 
本 。 你 可 以 通过 SSH 方 式 以 集群 用 户 的 号 份 登录 到 安装 有 Hive 的 主 节 点 。 在 
De ONDE 效率 。 如 采 需 要 的 话 ， 把 作业 流 脚 本 设置 为 目 
动 执行 方式 。 


RAF: 使 用 交互 式 的 EMR 集 群 


在 EMR 中 局 动 一 个 交互 式 的 Hive 作 业 流 。 你 会 用 到 已 在 EC2 中 注册 好 的 
SSH 证 书 来 连接 到 主 节 点 。 直接 在 主 节 点 上 运行 上 个 脚本 ， 记 得 要 为 脚本 
提供 合适 的 参数 。 


8.16.2 与 其 他 AWS 产 品 的 集成 


在 本 地 安装 Hadoop/Hive 之 后 ， 数 据 的 存储 位 置 元 非 就 是 HDFS 或 者 本 地 文 
件 系统 。 从 前 几 节 内 容 可 以 看 出 ，EMR 中 的 Hive 提 供 了 另外 一 种 选择 ， 它 
文 持 从 外 部 表 中 获取 数据 ， 例 如 S3。 


另 一 种 AWS 服 务 也 有 类 似 的 功能 ， 它 就 是 DynamoDB (网 址 为 
http://aws.amazon.com/dynamodb ) 。 它 是 托管 在 云端 的 NoSQL 数 据 库 。 运 
行 于 EMR 的 Hive 作 业 流 可 以 声明 使 用 外 部 表 ， 既 可 以 从 DynamoDB 读 取 数 
据 ， 也 可 以 将 其 作为 查询 结果 的 输出 位 置 。 


这 个 模型 功能 非常 强大 ， 因 为 在 这 种 模式 下 ， 用 户 可 以 使 用 Hive 来 处 理 和 
合并 多 个 数据 源 的 数据 ， 而 从 某 个 系统 癌 Hive 表 的 数据 映射 机 制定 透明 

的 。 另 外 ，Hive 还 可 以 借助 DynamoDB 把 数据 从 一 个 系统 迁移 到 另 一 个 系 
统 。 采 用 这 种 数据 存储 方案 的 主要 障碍 在 于 ， 需 要 频繁 地 将 存储 在 HDFS 或 
本 地 文件 系统 的 数据 转移 到 托管 的 云 存储 系统 


8.17 小 结 


本 章 学 习 了 Hive 的 相关 知识 ， 用 过 关系 数据 库 的 读者 应 该 非常 熟悉 Hive 提 
供 的 许多 工具 和 功能 。 由 于 避免 了 开发 MapReduce 程 序 ，Hive 能 够 使 更 多 的 
AJ 受到 Hadoop 的 强大 之 处 。 


特别 是 ， 我 们 下 载 并 安装 了 Hive， 了 解 到 它 是 一 个 把 HiveQL 语 言 转换 成 
MapReduce 代 码 的 客户 端 程序 ， 然 后 再 把 MapReduce 程 序 提交 给 Hadoop 集 
群 。 我 们 研究 了 Hive 创 建 表 并 针对 这 些 表 执行 查询 的 原理 。 我 们 观察 到 ， 
Hive 可 以 文 持 多 种 基础 的 数据 文件 格式 和 数据 结构 ， 并 学 习 了 如 何 修改 相 
应 的 设置 选项 。 


通过 本 章 学 习 ， 我 们 还 认识 到 ，Hive 表 在 很 大 程度 上 是 一 个 逻辑 概念 。 有 
了 这 种 认识 之 后 ， 所 有 针对 表 的 类 似 SQL 的 操作 事实 上 都 是 由 MapReduce 作 
业 在 HDFS 文 件 上 完成 的 。 之 后 ， 我 们 学 习 了 如 何在 Hive 中 使 用 联结 和 祝 
图 ， 以 及 如 何 对 表 进 行 分 区 以 辅助 高 效 得 询 操作 。 


我 们 使 用 Hive 把 查询 结果 写 入 HDFS 上 的 文件 ， 并 学 习 了 如 何在 弹性 
MapReduce 中 使 用 Hive， 怎 样 使 用 交互 式 作 业 流 开发 新 的 Hive 程 序 ， 并 在 批 
运行 模式 中 上 自动 运行 这 些 程序 。 


我 们 在 本 书 中 曾 多 次 提 到 ，Hive 看 上 去 是 个 关系 数据 库 ， 其 实 并 非 如 此 。 
但 是 ， 在 很 多 情况 下 ， 读 者 需要 整合 某 些 现 有 的 关系 数据 库 。 下 一 章 将 会 
介绍 如 何 实现 这 种 整合 ， 以 及 如 何 实现 在 不 同类 型 数据 兰 之 间 移动 数据 。 


第 9 章 与 关系 数据 库 协 同 工 作 


从 上 一 章 可 以 看 出 ，Hive 的 功能 非常 强大 。 用 户 可 以 把 存储 在 Hadoop 中 
的 数据 近似 看 做 关系 数据 库 。 然 而 ， 它 终究 不 是 一 个 真正 的 关系 数据 
库 。 它 没有 完全 实现 SQL 标 准 ， 它 的 性 能 和 规模 特征 与 传统 天 系数 据 库 
区 别 很 大 (并 不 是 说 哪个 更 好 一 些 ) o 

很 多 情况 下 ， 读 者 会 发 现 Hadoop 集 群 需要 与 关系 数据 库 配 合 完 成 某 些 数 
据 处 理 任 务 。 通 常 ， 业 务 流 需 要 把 数据 从 一 个 存储 系统 移动 到 另 一 个 存 
储 系统 。 本 章 ， 我 们 将 研究 如 何在 不 同 存储 系统 之 间 转 移 数据 。 


本 章 包括 以 下 内 容 : 


。 介绍 一 些 常见 的 Hadoop/RDBMS 使 用 案例 ; 

。 学 习 如 何 将 数据 从 RDBMS 移 至 HDFS 和 Hive; 
最 好 使 用 Sqoop 解 决 上 述 问题 ; 

使 用 Sqoop 将 Hadoop 数 据 导 出 至 RDBMS 

。 最 后 讨论 如 何在 AWS 中 使 用 Sqoop 。 


9.1. 和 常见 数据 路 径 


早 在 第 1 章 我 们 就 曾 讨 论 过 在 什么 情况 下 使 用 Hadoop， 在 什么 情况 下 使 用 
传统 关系 数据 库 。 和 当时 的 解释 一 样 ， 我 们 认为 要 根据 手头 的 具体 任务 选 
择 合 适 的 工具 ， 甚 至 还 有 可 能 要 同时 用 到 多 种 技术 。 为 曾 明 这 一 观点 ， 我 
们 来 看 一 些 具 体 的 例子 。 


9.1.1 Hadoop 用 于 存储 档案 


把 RDBMS 用 作 主 要 的 数据 储存 库 时 ， 经 常会 遇 到 数据 规模 和 数据 保留 方面 
。 随 着 新 数据 量 的 增长 ， 该 如 何 处 理 那 些 价 值 不 太 大 的 老 旧 数据 
Ie" 


习惯 上 ， 有 两 种 主要 的 解决 方案 。 


e 对 RDBMS 进 行 分 区 ， 这 样 会 提高 较 新 数 据 的 访问 性 能 。 有 时 ， 可 以 使 
用 速度 较 慢 、 成 本 较 低 的 存储 系统 储存 老 旧 数据 。 


。 使 用 磁 市 或 其 他 线 下 存储 设备 存储 老 旧 数据 。 


这 是 两 种 有 效 的 解决 办 法 。 到 底 选 用 哪 种 方法 取决 于 是 否 需 要 实时 访问 这 
些 老 旧 数 据 。 这 两 种 方法 都 比较 极端 ， 第 B CN 度 的 最 大 
化 ， 却 提高 了 系统 复 作 性 并 增加 了 设备 成 本 ， 二 种 方法 虽然 降低 了 成 本 
但 无 法 实时 访问 数据 。 


最 近 出 现 了 一 种 新 的 解决 方案 用 关系 数据 库存 储 最 新 数据 ， 同 时 使 用 

Hadoop 存 储 老 数据 。 采 用 这 种 方案 后 ， 数 据 要 么 以 结构 化 文件 的 形式 存储 
在 HDFS 上 ， 要 么 存储 在 Hive 并 保留 了 RDBMS 接 口 。 这 是 一 种 两 全 其 美的 
好 办 法 ， 用 户 既 可 以 通过 高 速 、 低 延迟 的 SQL 查询 访问 数据 规模 较 小 的 新 
数据 ， 也 可 以 通过 Hadoop 访 问 数据 规模 较 大 的 存档 文件 。 因 此 ， 无 论 用 户 
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通过 哪 种 方式 ， 都 能 访问 目标 数据 。 婚 文 持 新 数据 得 询 ， 也 文 持 存档 数据 
查询 的 存储 平台 尤其 需要 采用 这 种 方案 。 


由 于 Hadoop 的 扩展 性 极 强 ， 这 种 模型 具有 很 好 的 成 长 潜力 。 有 了 它 ， 我 们 
可 以 持续 不 断 地 增加 存档 数据 的 容量 ， 但 同时 也 能 够 对 其 进行 分 析 。 


9.1.2 ”使 用 Hadoop 进 行 数据 预 处 理 


在 讨论 Hive 的 时 候 我 们 曾 多 次 强调 ， 有 些 情况 下 运行 预 处 理 作业 或 以 其 他 
方式 净化 数据 是 非常 有 用 的 。 但 不 幸 的 是 ， 在 大 多 数 大 数据 处 理 案例 中 ，， 
大 量 数据 来 自 于 多 个 数据 源 ， 这 束 意 味 着 这 些 数 据 中 间 必 然 存在 错误 数 
据 。 尽 管 大 多 数 MapReduce 作 业 只 会 处 理 其 中 部 分 数据 ， 但 我 们 仍 希 望 找 出 
全 部 的 不 完整 数据 或 错误 数据 。 最 好 先 预 处 理 数 据 ， 然 后 再 把 它们 存 入 
Hive， 传 统 的 关系 数据 库 同样 如 此 。 


Hadoop 非 常 适合 完成 这 个 任务 ， 它 从 多 个 数据 源 获 取 数 据 ， 进 行 必 要 的 转 
换 之 后 把 它们 合并 ， 然 后 在 数据 插入 关系 数据 库 之 前 完成 数据 净化 工作 。 


9.1.3 ”使 用 Hadoop 作 为 数据 输入 工具 


Hadoop 不 仅 能 净化 数据 ， 使 其 更 适合 导入 关系 数据 库 。 而 且 ， 它 还 可 以 用 
于 生成 其 他 数据 集 或 数据 视图 ， 然 后 在 关系 数据 库 中 使 用 这 些 结 采 。 举 个 
例子 ， 常 见 的 应 用 场景 是 ， 我 们 不 仅 希 户 显 示 某 个 账号 的 主要 数据 ， 也 想 
同时 显示 根据 账号 使 用 情况 生成 的 二 级 数据 。 其 实 就 是 对 前 几 个 月 不 同 消 
费 类 型 的 交易 进行 汇总 。 这 些 数据 存储 在 Hadoop 中 ， 基 于 这 些 数据 可 以 生 
成 实际 汇总 ， 把 它们 也 存储 在 数据 库 中 以 便 快 速 查询 。 


9.1.4. ”数据 循环 


实际 情况 往往 要 比 这 些 单 一 的 场景 复杂 得 多 。 通 常 ，Hadoop 和 关系 数据 库 
之 间 的 数据 流 是 环形 或 弧 形 的 ， 而 不 征 简 单 的 从 Hadoop 到 关系 数据 库 或 从 
关系 数据库 到 Hadoop 的 线性 路 径 。 例 如 ， 数 据 可 能 移 经 过 Hadoop 的 预 处 
理 ， 然 后 存储 在 关系 数据 库 中 ， 接 着 义 频频 与 某 些 运算 的 结果 案 合 ， 再 把 
相应 的 结 采 存 入 数据 库 。 某 些 不 太 第 用 的 数据 符合 一 定 的 标准 之 后 ， 用 户 
束 会 从 数据 库 中 删除 这 些 数 据 ， 但 还 要 在 Hadoop 上 存档 。 


先 不 考虑 这 些 复 杂 的 情况 。 在 把 Hadoop 集 成 到 已 有 IT 系统 的 时 候 ， 保 证 数 
据 在 Hadoop 和 关系 数据 库 之 间 的 流动 能 力 至 关 重 要 。 接 下 来 ， 我 们 将 学 习 
具体 的 实现 方法 。 


9.2 ”配置 MySQL 

在 向 关系 数据 库 进 行 读 写 操作 之 前 ， 我 们 首先 需要 一 个 正在 运行 的 关系 数 
据 库 。 由 于 MySQL 数 据 库 可 免费 使 用 且 应 用 范围 极 广 ， 得 到 了 许多 开发 者 
的 青睐 ， 因 此 本 章 使 用 MySQL 数 据 库 作为 关系 数据 库 的 代表 。 当 然 ， 读 者 


可 以 选用 JDBC 驱 动 支持 的 任何 关系 数据 库 ， 但 如 采 读 者 选用 了 MySQL 之 外 
的 其 他 关系 数据 库 ， 在 与 数据 库 服 务 器 建立 连接 时 需要 作出 相应 的 调整 。 


9.3 ”实践 环节 : 安装 并 设置 MySQL 


PT 习 如 何 安 逆 并 配置 MySQL ， 赋 予 用 户 基 本 的 数据 库 操 作 权 限 和 访 
问 权 限 。 


1. 在 Ubuntu 主机 上 ， 使 用 apt-get 命令 安装 MySQL ° 


$ apt-get update 
$ apt-get install mysql-server 


2. 根据 提示 ， 为 root 用 户 设置 一 个 合适 的 密码 。 
3. SEHR. YEPRSUMySQLBRAS A ° 


$ mysql -h localhost -u root -p 


4. 按照 提示 ， 输 入 root 密 码 。 


Welcome to the MySQL monitor. Commands end with ; or \g. 
Your MySQL connection id is 40 


Mysql» 


5. 新 建 一 个 数据 库 ， 用 于 演示 本 划 讲 到 的 例子 。 


Mysql» create database hadooptest; 


上 壕 命令 的 执行 结 采 如 下 。 


Query OK, 1 row affected (0.00 sec) 


6. 新 建 一 个 用 户 帐 户 ， 并 赋予 该 用 户 全 部 数据 库 权 限 。 


Mysql» grant all on hadooptest.* to 'hadoopuser'Q'9?6' identified 


by 'password'; 


上 壕 命令 的 执行 结 采 如 下 。 


Query OK, © rows affected (0.01 sec) 


7. 重新 加 载 用 户 权 限 ， 使 上 一 步 的 配置 生效 。 


Mysql» flush privileges; 


上 述 命 令 的 执行 结 采 如 下 。 


Query OK, © rows affected (0.01 sec) 


8. 退出 root 用 户 账号 。 


mysql» quit; 


上 述 命 令 的 执行 结 末 如 下 : 


Bye 


9. 使 用 hadoopuser 帐 号 登录 ， 根 据 提示 输入 密码 。 


$ mysql -u hadoopuser -p 


10. 切换 到 新 建 数 据 库 hadooptest ° 


mysql» use hadooptest; 


11. 创建 一 个 测试 表 ， 然 后 删 挥 该 表 以 验证 该 用 户 具 备 确 实 相 应 的 操作 权 
限 ， 随 后 退出 。 


mysql» create table tabletest(id int); 
mysql» drop table tabletest; 


mysql» quit; 
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原理 分 析 


多 亏 apt 软件 包 管理 器 的 神奇 作用 ， 我 们 可 以 非常 轻松 地 安装 像 MySQL 这 
样 的 复杂 软件 。 我 们 使 用 的 是 在 Linux 系 统 上 安装 软件 的 标准 流程 。 在 
Ubuntu (以 及 许多 其 他 Linux 版 本 ) 系统 上 ， 请 求 下 载 MySQL 的 服务 器 软件 


会 同时 把 它 所 依赖 的 所 有 软件 包 都 下 载 到 客户 端 主 机 ， 包 括 MySQL 的 客 


PARE ° 
在 安装 过 程 中 ， 系 统 会 提示 用 户 输入 数据 库 的 root 口 令 。 即 使 该 数据 库 仅 作 
实验 之 用 ， 用 户 不 会 在 该 数据 库 中 存储 任何 有 价值 的 数据 ， 仍 有 必要 为 root 
ER 
对 这 种 行为 。 


安装 好 MySQL 之 后 ， 我 们 使 用 mysq1 命令 行 工具 连接 到 数据 库 。 该 命令 有 
多 个 选项 ， 但 我 们 仅 会 用 到 以 下 几 个 。 


。 i P ls Ud 〈 缺 省 状态 下 指 的 是 本 
地 主机 ) ，; 


。 -U : 该 选项 用 于 指定 使 用 哪个 用 户 账号 连接 数据 库 (默认 情况 下 指 的 
是 当前 Linux 用 户 ) ; 


e -p : 该 选项 用 于 指定 用 户口 令 。 


MySQL 支 持 多 数据 库 ， 每 个 数据 库 都 是 一 组 表 的 集合 ， 同 时 每 个 表 都 必须 
从 属于 某 个 数据 库 。MySQL 已 经 内 置 了 几 个 数据 库 ， 但 我 们 要 新 建 一 个 测 
试用 的 数据 库 ， 因 此 我 们 使 用 CREATE DATABASE 语句 新 建 了 一 个 名 为 
hadooptest 的 数据 库 。 


除非 用 户 被 明确 赋予 执行 所 需 操作 的 权限 ， 否 则 MySQL 不 会 执行 任何 数据 
库 操 作 。 我 们 不 想 以 root 用 户 的 身份 完成 所 有 任务 〈 使 用 root 权 限 进行 所 有 
数据 库 操作 不 仅 是 一 个 坏 习 惯 ， 同 时 也 存在 巨大 的 风险 ， 因 为 root 用 户 可 以 
修改 或 删除 任何 数据 ) ， 因 此 我 们 使 用 GRANT 语句 新 建 了 一 个 名 为 
hadoopuser 的 用 户 。 


我 们 使 用 GRANT 语句 完成 以 下 3 个 任务 : 
。 创 建 hadoopuser 账号 ; 
。 为 hadoopuser 用 户 设 置 口 令 。 虽 然 本 例 中 我 们 使 用 password 作为 
i PAM 但 用 户 千 万 不 要 这 样 做 ， 而 应 当选 用 容易 记 住 的 字符 


赋予 hadoopuser 用 户 全 部 权限 ， 使 其 可 以 对 hadooptest 数据 库 及 
组 成 该 数据 库 的 所 有 数据 表 执 行 任何 操作 。 


我 们 通过 FLUSH PRIVILEGES 命令 确保 这 些 设置 生效 ， 然 后 退出 root 账 
号 ， 并 以 hadoopuser 的 身份 连接 到 服务 器 ， 查 看 数据 库 工作 是 否 正 常 。 


本 例 中 的 USE 语句 有 些 多 余 。 以 后 ， 我 们 可 以 在 mysq1 命令 行 工 作 中 加 入 
要 访问 的 数据 库 名 ， 这 样 就 会 目 动 切换 到 那个 数据 库 。 


使 用 狐 用 户 成 功 连接 到 数据 库 是 个 好 兆头 ， 但 为 了 确信 所 有 设置 均 已 生 
效 ， 我 们 在 hadooptest 数据 库 中 新 建 一 个 表 ， 然 后 删除 该 表 。 上 述 操作 
的 成 功 表明 hadoop 用 户 确实 拥有 修改 数据 库 的 权限 。 


小 心 翼 辟 的 原因 

我 们 是 不 是 有 把 太 过 谨慎 了 ， 非 要 仔细 检查 MySQL 的 每 一 步 设 置 。 但 是 ， 
我 曾经 发 现 ， 某 些 细微 的 拼写 错误 ， 尤 其 是 在 GRANT 语 名 中， 都 会 导致 一 
些 很 难 发 现 的 问题 。 为 了 确保 不 出 错 ， 我 们 接 下 来 要 修改 MySQL 的 默认 配 
置 ， 其 实 我 们 并 不 需要 这 么 做 ， 但 如 果 不 这 样 做 ， 将 来 可 能 会 后 悔 。 
在 产品 数据 库 中 ， 用 户 当然 不 能 像 书 中 这 样 随意 使 用 与 数据 库 安全 性 密切 


相关 的 语句 ， 例 如 GRANT 。 一 定 要 查阅 数据 库 文档 ， 完 全 弄 清 楚 用 户 账号 
及 数据 库 权 限 的 相关 内 容 。 


9.4 ”实践 环节 : 配置 MySQL 人 允许 远程 连接 
MySQL 的 默认 设置 会 拒绝 其 他 主机 访问 数据 库 ， 我 们 需要 对 此 进行 修改 。 


1. 使 用 用 户 最 喜欢 的 文本 编辑 器 编辑 /etc/mysql/my.cnf ， 找 到 下 面 
这 行内 容 。 


bind-address = 127.0.0.1 


2. 在 该 行 前 面 加 入 注释 从“#”。 


# bind-address = 127.0.0.1 


3. 重启 MySQL ° 


$ restart mysql 


原理 分 析 


大 多 数 MySQL 的 默认 配置 只 允许 从 本 地 主机 访问 数据 库 。 从 安全 的 角度 来 
看 ， 这 个 配置 无 颖 是 非常 正确 的 。 但 是 ， 它 也 会 引起 一 些 现实 问题 ， 例 
如 ， 用 户 使 用 的 MapReduce 作 业 需 要 访问 远程 数据 库 。 用 户 会 发 现 由 于 无 法 
连接 数据 库 ， 作 业 最 终 失 败 。 在 这 种 情况 下 ， 用 户 在 MySQL 主 机 上 启动 
mysql 命令 行 客 户 端 ， 运 行 成 功 ， 没 有 发 现任 何 问题 。 之 后 ， 用 户 可 能 编 
写 一 个 用 于 测试 连通 性 的 JDBC 客 户 端 程序 。 同 样 ， 也 没有 发 现 问题 。 只 有 
当 Hadoop 工 作 节 点 要 连接 MySQL 服 务 器 时 才 会 出 现 上 述 问 题 。 这 种 情况 同 
样 曾 困扰 了 我 一 段 时 间 ! 

上 述 对 MySQL 默 认 设 置 的 修改 会 把 MySQL 绑 定 到 所 有 可 用 接口 ， 因 此 ， 可 
以 从 远程 客户 端 访 问 MySQL 数 据 库 。 


在 修改 默认 配置 后 ， 需 要 重新 启动 MySQL 服 务 器 。 在 Ubuntu 11.10 系 统 中 ， 
许多 服务 脚本 迁移 到 了 Upstart 框架 ， 我 们 可 以 直接 手动 运行 restart 


nre 


如 果 用 户 使 用 的 操作 系统 不 是 Ubuntu， 或 是 Ubuntu 的 其 他 版 本 ，MySQL 配 
置 文件 在 主机 上 的 存储 位 置 可 能 稍 有 不 同 。 例 如 ， 在 CentOS 和 Red Hat 企 业 
版 操作 系统 上 ，MySQL 配 置 文件 存放 在 /etc/my .cnf 目录 下 。 


禁止 尝试 的 一 些 操 作 

至 少 要 考虑 后 果 。 在 前 儿 个 例子 中 ， 我 们 为 新 建 用 户 账 号 设置 了 弱 口 令 ， 
于 万 别 这 么 做 。 特 别 是 在 数据 库 文 持 远 程 访问 时 ， 于 万 不 能 设置 弱 口 令 。 
不 错 ， 这 只 是 一 个 测试 数据 库 ， 其 数据 没有 任何 价值 ， 但 令 人 居 诈 的 是 ， 


很 多 测试 数据 库 的 使 用 时 间 都 很 长 ， 并 且 越 来 越 关 键 。 在 此 情况 下 ， 用 户 
征 否 会 记得 删除 配置 了 弱 口 令 的 用 户 账 号 ? 


讲 得 够 多 了 。 数 据 库 中 需要 数据 ， 接 下 来 ， 我 们 将 在 hadooptest 数据 库 
中 新 建 一 个 数据 表 ， 本 章 其 余 几 市 也 会 用 到 这 个 表 。 


9.5 “实践 环节 : 建立 员工 数据 库 


大 多 数 数 据 库 教程 都 使 用 员工 数据 表 作 为 示例 。 可 以 说 ， 如 有 果 不 讨论 员工 
数据 库 ， 那 么 数据 库 的 学 习 束 不 完整 。 因 此 ， 我 们 按照 惯例 ， 在 


hadooptest 数据 库 中 新 建 员工 数据 表 ° 


1. 新 建 emp1Loyees .tsv 文件 ， 它 以 tab 键 为 分 隔 符 。 其 内 容 如 下 。 


Alice Engineering 50000 2009-03-12 
Bob Sales 35000 2011-10-01 

Camille Marketing 40000 2003-04-20 
David Executive 75000 2001-03-20 
Erica Support 34000 2011-07-07 


XYEBSMySQLJRS $& ° 


$ mysql -u hadoopuser -p hadooptest 


3. 创建 数据 表 。 


Mysql» create table employees( 
first name varchar(10) primary key, 
dept varchar(15), 

salary int, 

start date date 

) 5; 


4. 把 employees ,tsv 文件 数据 导入 数据 表 : 


mysql» load data local infile '/home/garry/employees.tsv' 
-» into table employees 


-> fields terminated by 'Nt' lines terminated by '^n' 


garry2vmlb5: ~ 
File Edit view Terminal Help 
Server version: 5.1.66-rell4.1 (Percona Server (GPL), 14.1, Revision 495) 


Copyright (c) 2000, 2012, Oracle and/or its affiliates. All rights reserved. 
Oracle is a registered trademark of Oracle Corporation and/or its 


affiliates. Other names may be trademarks of their respective 
owners. 


Type 'help;' or 'Ah' for help. Type RN。 to clear the current input statement. 


mysql» create table employees( 
-» first name varchar(10) primary key, 
-> dept varchar(15), 
-» salary int, 
-» start date date); 
Query OK, O rows affected (0.02 sec) 


mysql» load data local infile '/home/garry/employees.tsv' 
-» into table employees 
-> fields terminated by '\t' lines terminated by 'An'; 
Query OK, 5 rows affected (0.01 sec) 
Records: 5 Deleted: O Skipped: O Warnings: 0 


mysql> J 


原理 分 析 

这 是 一 个 标准 的 数据 库 操 作 流程 。 我 们 创建 了 一 个 以 tab 键 为 分 隔 符 的 数据 
文件 ， 在 数据 库 中 创建 数据 表 ， 然 后 使 用 LOAD DATA LOCAL INFILE i 
句 将 文件 数据 导入 数据 表 。 


因为 我 们 的 目的 只 是 为 了 说 明 如 何 把 数据 导入 MySQL 数 据 库 ， 因 此 本 例 中 
使 用 了 一 个 很 小 的 数据 集 。 


留意 数据 文件 的 访问 权限 


522490 T LOAD DATA 语句 中 的 LOCAL 关键 字 。 这 样 做 ，MySQL 会 以 
MySQL 用 户 的 身份 导入 数据 文件 ， 通 常会 引起 文件 访问 问题 。 


9.6 ”把 数据 导入 Hadoop 


我 们 前 期 已 做 了 大 量 努 力 ， 接 下 来 ， 我 们 看 看 如 何 从 MySQL 数 据 库 导出 数 
据 ， 并 导入 Hadoop 。 


9.6.1 ”使 用 MySQL 工 具 手工 导入 


把 MySQL 的 导出 数据 导入 Hadoop 的 最 简单 方法 就 是 使 用 现 有 的 命令 行 工具 
和 和 MySQL 语句 。 为 了 导出 整个 数据 表 或 整个 数据 库 的 内 容 ，MySQL 提 供 了 
AD 。 为 了 进行 更 精确 的 数据 导出 ， 我 们 可 以 使 用 下 述 
SELECT 语句 。 


SELECT coli, col2 from table 
INTO OUTFILE '/tmp/out.csv' 
FIELDS TERMINATED by ',', LINES TERMINATED BY '^n'; 


一 旦 我 们 把 数据 导出 到 文件 中 ， 就 可 以 使 用 hadoop fs -put 把 该 文件 移 
到 HDFS 上 ， 或 通过 上 一 章 讲 过 的 方法 将 其 导入 Hive 。 


一 展 身手 : 把 员 工 数据 表 的 内 容 导 出 至 HDFS 


我 们 并 不 想 把 本 章 变 成 MySQL 教 程 。 请 自行 查看 mysqldump 工具 的 语 
法 ， 然 后 用 它 或 SELECT .. INTO OUTFILE 语句 把 员工 数据 表 导 出 到 以 
tab 为 分 隅 符 的 文件 ， 随 后 将 该 文件 拷贝 至 HDFS 。 


9.6.2 ”在 mapper 中 访问 数据 库 


对 我 们 的 小 例子 而 言 ， 上 述 方 法 确实 不 错 。 但 如 果 读 者 需要 导出 一 个 更 大 
尤其 是 要 用 MapReduce 作 业 处 理 导 出 数据 的 时 候 ， 有 什么 更 好 的 
ABS? 


一 种 直观 的 方法 是 ， 在 MapReduce 输 入 作业 中 直接 使 用 JDBC 从 数据 库 读 取 
数据 并 写 入 HDFS， 为 后 续 的 数据 处 理 做 好 准备 。 


这 种 方法 虽然 有 效 ， 却 存在 一 些 不 太 明 显 的 问题 。 


读者 需要 仔细 考虑 数据 库 可 以 承载 的 负 倚 。 在 一 个 规模 很 大 的 集群 上 运行 
这 种 作业 会 迅速 拖 震 数据库 ， 因 为 成 十 上 万 个 mapper 要 同时 与 数据 库 建立 
连接 并 读 取 同一 个 数据 表 的 内 容 。 最 人 简单 的 访问 模式 可 能 是 每 次 读 取 一 行 
数据 ， 这 种 方法 的 效率 不 及 成 块 访问 方式 的 效率 高 。 即 使 数据 库 能 够 承载 
这 么 大 的 访问 量 ， 数 据 库 的 网 络 连 接 也 会 马上 成 为 瓶 贷 问题 。 


为 了 让 所 有 mapper 能 够 平行 进行 数据 库 查 询 操作 ， 用 户 需要 制定 策略 ， 把 
数据 表 分 成 若干 段 ， 每 个 mapper 读 取 一 段 数据 。 用 户 需要 考虑 的 另 一 个 问 
题 是 ， 如 何 问 每 个 mapper 分 别传 递 数 据 段 的 参数 。 


如 果 要 读 取 的 数据 段 比 较 大 ，Hadoop 框 架 很 可 能 会 终止 长 时 间 运 行 的 任 
务 ， 除 非 用 户 明 确 向 Hadoop 框 架 报告 任务 进度 。 

对 这 样 一 个 概念 很 简单 的 任务 来 讲 ， 需 要 做 的 工作 却 很 多 。 难 道 没有 一 个 
现成 的 工具 可 以 完成 这 样 的 工作 吗 ? 实际 上 ， 确 实 存在 这 样 一 个 工具 ， 那 
就 是 Ssqdoop， 本 章 剩 余部 分 将 介绍 它 的 应 用 。 


9.6.3 ”更 好 的 方法 : 使 用 Sqoop 


Sqoop 是 由 Cloudera (http://www.cloudera.com ) 创建 的 ， 这 家 公司 提供 了 许 
多 Hadoop 相 关 的 服务 ， 同 时 也 制作 自己 的 Hadoop 软 件 安 装 包 。 第 11 章 将 会 
讲 到 这 些 内 容 。 


除了 提供 打包 的 Hadoop 产 品 外 ，Cloudera 公 司 也 创建 了 许多 大 众 可 以 使 用 的 
工具 ，Sqoop 便 是 其 中 之 一 。Sqoop 的 功能 正 是 我 们 想 要 实现 的 ， 它 可 以 在 


Hadoop 和 关系 数据 库 之 间 揽 贝 数据 。 尽 管 Sqoop 最 初 由 Cloudera 开 发 ， 现 在 
它 已 经 被 捐 给 了 Apache 软 件 基金 会 ， 其 主页 地 址 是 http://sqoop.apache.org ° 


9.7 ”实践 环节 : 下 载 并 配置 Sqoop 
本 节 将 要 完成 Sqoop 的 安装 和 配置 工作 。 


1. 访问 Sqoop 主 页 ， 根 据 读者 使 用 的 Hadoop 版 本 选取 1.4.1 之 后 的 最 稳定 版 
Æo PRERE ° 


2. 把 下 载 到 的 文件 拷贝 至 目标 位 置 ， 然 后 解压 缩 。 


$mv sqoop-1.4.1-incubating hadoop-1.0.0.tar.gz /usr/local 
$ cd /usr/local 
$ tar -xzf sqoop-1.4.1-incubating hadoop-1.0.0.tar.gz 


3. 制作 符号 链接 。 


$ ln -s sqoop-1.4.1-incubating hadoop-1.0.0 sqoop 


4. 更 新 环境 变量 。 


$ export SQOOP HOME-/usr/1local/sqoop 


$ export PATH-$(SQOOP HOME)/bin:$(PATH) 


5. 为 MySQL 数 据 库 下 载 JDBC 驱 动 程序 ， 其 地 址 为 


http://dev.mysql.com/downloads/connector/j/5.0.html ° 


6. 把 下 载 到 的 mysqL-connector-java-5.0.8-bin,jar XAFA 
Sqoop 的 1ib 目录 : 


$ cp mysql-connector-java-5.0.8-bin.jar /opt/sqoop/lib 


7. 测试 Sqoop 安 装 是 否 成 功 。 


$ sqoop help 


上 述 命 令 的 执行 结果 如 下 所 示 。 


usage: sqoop COMMAND [ARGS ] 
Available commands: 


codegen Generate code to interact with database 
records 
version Display version information 


See 'sqoop help COMMAND' for information on a specific command. 


原理 分 析 


Sqoop 的 安装 过 程 并 不 复杂 。 从 Sqoop 主 页 下 载 到 所 需 版 本 (注意 要 选用 与 
e EUNT AE) 的 安装 包 后 ， 我 们 把 它 拷贝 到 目标 位 置 并 执行 
EH AERE 


和 其 他 工具 的 设置 过 程 一 样 ， 我 们 还 需要 设置 一 个 环境 变量 ， 并 把 Sqoop 的 
bin 目录 添加 a 到 环境 变量 中 。 这 样 ， 我 们 既 可 以 直接 在 shell 中 调用 Sqoop， 
也 可 以 在 一 个 配置 文件 中 调用 Sqoop。 


Sdoop 要 用 到 MySQL 数 据 库 的 JDBC 驱 动 ， 因 此 我 们 下 载 MySQL 连 接 器 并 把 
它 找 到 Sqoop 的 1ib 目 孙 中 。 对 最 常用 的 数据 库 来 讲 ， 这 些 就 是 sqoop 需 要 
的 全 部 设置 。 如 果 读 者 想 使 用 别 的 数据 库 ， 请 查阅 Sqoop 文 档 。 


在 完成 上 述 最 小 安装 后 ， 我 们 在 命令 行 中 运行 sqoop ， 以 验证 其 可 以 正常 
运行 。 


提示 :， 读 者 可 能 会 看 到 Sqoop 的 警告 消息 ， 它 提醒 读者 没有 定义 
HBASE_HOME 变量 。 因 为 本 书 不 讨论 HBase 的 相关 内 容 ， 所 以 无 需 设 置 
这 些 变量 ， 我 们 会 包 略 掉 这 些 警 告 。 


1. Sqoop 和 Hadoop 的 版 本 


上 于 下 载 Sqoop 安 装 包 时 ， 我 们 多 次 强调 选用 合适 的 版 本 ， 在 以 前 下 载 其 他 
软件 时 并 没有 这 么 在 意 其 版 本 。 这 是 因为 ，1.4.1 版 之 前 的 Sqoop 对 Hadoop 核 
心 类 中 的 某 个 方法 存在 依赖 关系 ， 而 该 方法 只 存在 于 Cloudera 提 供 的 Hadoop 
安装 包 或 0.21 版 之 后 的 Hadoop 安 装 包 中 。 


遗憾 的 是 ，Hadoop 1.0 实 际 上 是 0.20 分 文 的 延续 ， 这 就 意味 着 ，Sqoop 1.3 可 
以 与 Hadoop 0.21 配 合 使 用 ， 却 无 法 与 0.20 或 1.0 版 的 Hadoop 配 合 使 用 。 为 了 
避免 这 些 软件 版 本 带 来 的 麻烦 ， 我 们 推荐 读者 使 用 1.4.1 之 后 (包含 1.4.1) 
的 Sgoop， 它 们 不 会 对 Hadoop 产 生 依赖 关系 。 


无 需 再 对 MySQL 进 行 设置 。 我 们 会 发 现 ， 如 果 服 务 器 拒绝 远程 客户 端的 连 
接 ， 可 以 通过 Sqoop 修 改 该 设置 。 


2. Sqoop 和 HDFS 


我 们 可 以 执行 的 最 简单 的 导入 任务 束 是 把 数据 表 的 内 容 导 出 到 HDFS 的 结构 
化 文件 中 。 让 我 们 一 起 来 做 吧 。 


9.8 ”实践 环节 :把 MySQL 的 数据 导入 HDFS 


本 节 将 演示 一 个 较为 简单 的 例子 ， 从 MySQL 数 据 表 读 取 数据 并 将 其 写 入 位 
于 HDFS 上 的 文件 。 


1. 运行 Sgoop， 从 MySQL 导 出 数据 ， 保 存在 HDFS 上 。 


$ sqoop import --connect jdbc:mysql://10.0.0.100/hadooptest 
--username hadoopuser \ > --password password --table employees 


2. 检查 输出 目录。 


$ hadoop fs -ls employees 


上 壕 命令 的 执行 结 采 如 下 。 


Found 6 items 

-rw-r--r-- 3 hadoop supergroup 0 2012-05-21 04:10 / 
user/hadoop/employees/ SUCCESS 

drwxr -xr -x - hadoop supergroup 0 2012-05-21 04:10 / 
user/hadoop/employees/ logs 

-rw-r--r-- 3 .. /user/hadoop/employees/part-m-00000 
-rw-r--r-- 3 .. /user/hadoop/employees/part-m-00001 
-rw-r--r-- 3 .. /user/hadoop/employees/part-m-00002 
-rw-r--r-- 3 .. /user/hadoop/employees/part -m-00003 


3. 查看 其 中 一 个 结果 文件 的 内 容 。 


$ hadoop fs -cat /user/hadoop/employees/part-m-00001 


MEN 


上 述 命 令 的 执行 结 采 如 下 所 示 。 


Bob, Sales, 35000, 2011-10-01 
Camille,Marketing, 40000, 2003-04-20 


原理 分 析 


我 们 直截了当 的 使 用 一 个 Sqoop 语 句 完成 数据 的 导入 导出 。 可 以 看 出 ， 
Sqoop 命 信行 包含 多 个 和 克 项 ， 本 市 将 逐一 解释 其 用 法 。 


Sqoop 的 第 一 个 选项 是 要 执行 的 任务 类 型 ， 本 例 中 ， 我 们 希望 把 关系 数据 库 
存储 的 数据 导入 Hadoop。- -connect 选项 指定 了 数据 库 的 JDBC URI， 其 

标准 格式 为 jdbc:<driver>://<host>/<database>。 很 明显 ， 读 者 

需要 根据 实际 情况 修改 其 中 的 服务 器 IP 或 者 主机 名 。 


我 们 使 用 - -username 和 - -password 指定 用 于 连接 数据 库 的 用 户 账号 和 
口令 。 最 后 ， 使 用 - -table 指定 存储 目标 数据 的 数据 表 。 这 就 是 需要 用 户 
配置 的 全 部 内 容 ， 剩 下 的 操作 由 Sqoop 完 成 。 
Sqoop 的 输出 相对 比较 繁琐 ， 但 一 定 要 阅读 这 些 内 容 ， 因 为 它 很 好 地 揭示 了 
Sqoop 的 运行 过 程 。 
提示 :， 重复 执 行 Sqoop 可 能 会 引发 错误 ， 因 为 生成 的 文件 已 经 存在 。 目 前 
BAN R o 
首先 ， 在 上 述 步 骤 中 ， 我 们 发 现 Sqoop 提 示 我 们 不 要 使 用 - -password 选 
项 ， 因 为 它 本 身 就 是 不 安全 的 。Sqoop 提 供 了 男 一 个 提示 用 户 输入 口令 的 -P 
命令 ,今后 束 用 它 代 兰 - -password 选项 。 
Sqoop 还 抛 出 一 个 警告 信息 ， 告 诉 我 们 使 用 文本 主键 是 一 种 糟 料 的 做 法 ， 稍 
后 将 详细 讨论 这 个 话题 。 
在 完成 所 有 配置 之 后 ，Sdqoop 抛 出 多 个 警告 信息 ， 但 是 ， 我 们 发 现 Sqoop 成 
功 执行 了 MapReduce 作 业 。 


默认 情况 下 ，Sqoop 把 输出 文件 放 到 用 户 根 目录 下 的 某 个 目 隶 中。 存储 输出 
文件 的 目 孙 名 与 数据 表 的 名 称 完 全 相同 。 为 了 验证 这 一 点 ， 我 们 使 用 


hadoop fs -ls 检查 该 目录 ， 结 采 发 现 其 中 包含 多 个 文件 。 对 这 么 小 的 
数据 表 而 言 ， 输 出 文件 的 数量 多 于 我 们 的 预期 。 请 注意 ， 我 们 稍微 紧缩 了 
一 下 输出 ， 主 机 就 能 每 行 显示 一 条 记录 。 


接着 ， 我 们 检查 其 中 一 个 输出 文件 的 内 容 ， 从 中 发 现 了 输出 多 个 文件 的 原 

。 即 使 数据 表 很 小 ，Sqoop 仍 然 使 用 多 个 mapper 读 取 其 内 容 ， 因 此 相应 地 
出 现 了 多 个 输出 文件 。 默 认 情 况 下 ，Sqoop 会 使 用 4 个 map 任 务 。 本 例 稍微 有 
点 特别 ， 通 常 要 导入 HDFS 的 数据 非常 大 。 由 于 我 们 想 把 数据 找到 HDFS， 
今后 很 可 能 使 用 MapReduce 作 业 处 理 这 些 数据 ， 因 此 输出 多 个 文件 非常 合 


适 
。 Mapper 及 主键 
通过 手工 方式 把 文本 列 设 为 员工 数据 库 的 主键 列 ， 我 们 故意 设置 了 这 个 场 


景 。 实 际 上 ， 一 般 使 用 目 动 增长 的 、 员 工 的 数字 ID 作为 主键 。 但 是 ， 使 用 
poem 出 了 Sqoop 处 理 数 据 表 的 方式 ， 以 及 主键 在 数据 处 理 过 程 中 的 作 


Sqoop 根 据 主键 列 的 内 容 决 定 如 何 把 源 数据 分 段 ， 然 后 用 多 个 mapper 分 别 读 
取 各 段 数据 。 但 是 ， 这 就 意味 着 ， 数 据 分 段 方 法 依赖 于 字符 串 对 比 ， 在 大 
P BIN 结果 可 能 有 所 偏差 。 最 理想 的 情况 是 使 用 数字 列 作 
为 主键 列 。 


或 者 ， 可 以 使 用 -m 选项 控制 mapper 的 数量 。 如 果 我 们 使 用 -m 1, SqoopH 
会 用 到 一 个 mapper， 这 就 没 必要 根据 主键 列 进行 数据 分 段 。 对 于 像 我们 用 
到 这 种 小 数据 集 ， 我 们 可 以 通过 这 种 方式 保证 只 有 一 个 输出 文件 。 


这 不 仅仅 是 一 个 选项 ， 如 果 读 者 不 用 主键 从 数据 表 导 出 数据 ，Sqoop 将 会 
败 并 抽出 错误 ， 提 柄 用 户 从 这 种 数据 表 导 出 数据 的 唯一 办 法 就 是 明确 设置 
只 使 用 一 个 mapper。 


。 其 他 选项 
在 导入 数据 时 ， 千 万 别 产生 Sqoop 无 所 不 能 或 一 无 所 长 的 偏见 。 用 户 还 可 以 
使 用 其 他 几 个 Sqoop 选 项 指定 、 限 定 和 修改 从 数据 库 提取 的 数据 。 我 们 会 在 


后 续 儿 市 讨论 Hive 的 时 候 说 明 这 些 选 项 的 作用 ,但 请 记 住 ， 其 中 大 多 数 选 
项 也 可 用 于 把 数据 库 数 据 导入 HDFS。 


Sqoop 的 体系 结构 


上 一 太 我 们 已 看 到 Sqoop 运 作 正常 ， 现 在 有 必要 花 点 时间 弄 清楚 它 的 体系 结 
构 及 工作 原理 。 在 很 多 方面 ，Sqoop 和 Hadoop 的 交互 方式 与 Hive 和 Hadoop 的 
交互 方式 完全 相同 。 它 们 都 是 一 个 独立 的 客户 端 程序 ， 可 以 创建 一 个 或 多 
个 MapReduce 作 业 来 执行 任务 。 


Sqoop 丰 包含 任何 服务 右 进 程 ， 我 们 运行 的 命令 行 客户 剖 束 是 其 全 部 内 容 。 
但 是 ， 因 为 它 能 为 手头 特定 的 任务 生成 合适 的 MapReduce 代 码 ， 因 此 它 更 能 
有 效 利用 Hadoop ° 


上 市 讲 到 的 基于 主键 切 分 RDBMS 中 源 数 据 表 的 例子 束 很 好 地 说 明了 这 一 
点 。Sqoop 知 道 MapReduce 作 业 中 将 要 用 到 的 mapper 数 量 (前 几 节 曾 提 到 ， 
默认 设置 为 4) ， 基 于 此 信息 ， 它 可 以 对 源 数据 表 进 行 智能 分 块 。 


假设 用 4 个 mapper 处 理由 100 万 条 记录 组 成 的 表 ， 那 么 每 个 mapper 要 处 理 2 50 
000 条 记录 。 借 助 主键 列 的 信息 ，Sqoop 可 以 创建 4 条 SQL 语句 获取 数据 ， 
条 语句 都 限定 了 目标 数据 的 主键 范围 。 在 最 简单 的 情况 下 ， 仅 需 在 第 一 条 
SQL 语句 中 加 入 WHERE id BETWEEN 1 and 250000 这 样 的 声明 ， 并 在 
其 他 语句 中 限定 不 同 的 id 范围 。 

我 们 还 会 学 习 把 Hadoop 数 据 导 入 关系 数据 库 这 一 反 回 操作 的 实现 ， 其 中 再 
次 用 Sqoop 实 现 多 个 mapper 并 行 获取 数据 ， 并 优化 回 关 系数 据 库 插 入 数据 的 
过 程 。 但 是 ， 所 有 这 些 智能 控制 都 是 在 运行 于 Hadoop 上 的 MapReduce 作 业 
中 实现 的 。Sqoop 命 令 行 客 户 端 程 序 只 负责 高 歼 生 产 MapReduce 人 代码， 之 后 
便 不 参与 数据 处 理 过 程 。 


使 用 Sqoop 把 数据 导入 Hive 

Sqoop 与 Hive 的 集成 意义 重大 ， 这 就 可 以 把 关系 数据 库存 储 的 数据 导入 新 建 
uu eos e 可 以 通过 多 种 方式 实现 这 一 过 程 ， 但 我 们 还 是 从 一 
六 简单 案例 入 手 。 


9.9 ”实践 环节 : 把 MySQL 数 据 导 出 到 Hive 


本 例 中 ， 我 们 将 把 一 个 MYSQL 数据 表 中 的 所 有 数据 导入 Hive 中 相应 的 数据 
表 。 读 者 首先 需要 按照 上 一 章 的 讲解 完成 Hive 的 安装 和 配置 工作 。 


1. BIER ID AEH E Ho e 


$ hadoop fs -rmr employees 


上 壕 命令 的 执行 结 采 如 下 。 


Deleted hdfs://head:9000/user/hadoop/employees 


2. 人 确认 Hive 中 不 存在 employees 数 据 表 。 


$ hive -e "show tables like 'employees'" 


上 壕 命令 的 执行 结 采 如 下 。 


Time taken: 2.318 seconds 


3. 使 用 Sqoop 执 行 数据 导入 任务 。 


$ sqoop import --connect jdbc:mysql://10.0.0.100/hadooptest 
--username hadoopuser -P 


--table employees --hive-import --hive-table employees 


4. 检查 Hive 中 的 内 容 


o 


$ hive -e "select employees" 


上 壕 命令 的 执行 结 采 如 下 。 


OK 


Alice Engineering 50000 2009-03-12 
Camille Marketing 40000 2003-04-20 
David Executive 75000 2001-03-20 
Erica Support 34000 2011-07-07 

Time taken: 2.739 seconds 


5. 检查 Hive 中 已 创建 的 数据 表 。 


$ hive -e "describe employees" 


上 壕 命 令 的 执行 结 采 如 下 。 


OK 

first name string 

dept string 

salary int 

start date string 

Time taken: 2.553 seconds 


原理 分 析 


本 例 中 用 到 了 Sqoop 的 两 个 新 选项 ，- -hive-import 选项 指明 数据 的 目标 
存储 位 置 是 Hive 而 非 HDFS，- -hive-table to 则 指明 了 Hive 中 用 于 存储 
导入 数据 的 数据 表 。 

事实 上 ， 如 果 Hive 中 存储 导入 数据 的 表 与 - -table 选项 指定 的 源 数据 表 一 
致 的话 ， 无 需 专 门 指明 Hive 表 名 。 但 是 ，- -hive-table to 选项 使 它 变 

得 更 明确 ， 因 此 我 们 通常 都 要 用 到 该 选项 。 


和 以 前 一 样 ， 一 定 要 从 头 到 尾 仔 细 阅 读 Sqoop 的 输出 ， 因 为 它 能 揭示 Sqoop 
的 运行 情况 ， 最 后 儿 行 表明 数据 成 功 导入 了 新 建 的 Hive 表 。 


我 们 看 到 ，Sqoop 从 MySQL 获 取 了 5 行 数据 ， 然 后 束 把 它们 拷贝 到 HDFS 并 
导入 Hive。 接 下 来 我 们 会 讨论 关于 类 型 转换 的 警告 。 


Sdqoop 完 成 数据 导入 任务 后 ， 我 们 从 新 建 的 Hive 表 中 读 取 数据 以 确认 结果 和 
预期 一 致 。 接 着 ， 我 们 检查 了 新 建 的 employees 表 的 定义 。 


这 时 ， 出 现 了 一 些 奇 怪 的 现象 : start_date 列 在 MySQL 数 据 库 中 是 
DATE 类 型 ， 而 现在 却 成 了 string 类 型 。 


Sdqoop 运 行 时 输出 的 警告 信息 可 以 解释 这 个 现象 


12/05/23 13:06:33 WARN hive.TableDefWriter: Column start date had to be 


cast to a less precise type in Hive 


出 现 这 种 现象 的 原因 在 于 ， 除 TIMESTAMP 之 外 ，Hive 不 支持 其 他 临时 数据 
类 型 。 如 果 被 导入 的 数据 是 与 时 间或 日 期 相关 的 其 他 类 型 ，Sqoop 会 把 它 转 
换 成 string 类 型 。 稍 后 我 们 会 介绍 处 理 这 种 情况 的 办 法 。 


本 例 提 到 的 操作 非常 淄 见 ， 但 我 们 并 非 总 是 想 把 整个 数据 表 导 入 Hive。 有 
时 ， 我 们 只 想 把 特定 几 列 数据 导入 Hive， 或 者 在 数据 导入 之 前 进行 筛选 以 
减少 数据 项 。Sqoop 可 以 用 于 这 两 种 场景 。 


9.10 ”实践 环节 : 有 选择 性 的 导入 数据 
接 下 来 ， 我 们 将 学 习 如 何 通过 条 件 语句 有 选择 地 把 MySQL 数 据 导 入 Hive ° 
1. 删 掉 Hadoop 中 现 有 的 employees 目 录 : 


$ hadoop fs -rmr employees 


Ir 


述 命令 的 执行 结 采 如 下 : 


Deleted hdfs://head:9000/user/hadoop/employees 


2. 使 用 条 件 语句 导入 选中 的 数据 列 。 


sqoop import --connect jdbc:mysq1://10.0.0.100/hadooptest 
--username hadoopuser -P 

--table employees --columns first name,salary 

--where "salary » 45000" 

--hive-import --hive-table salary 


上 壕 命令 的 执行 结 采 如 下 。 


12/05/23 15:02:03 INFO hive.HiveImport: Hive import complete. 


3. 检查 新 建 的 Hive 数 据 表 。 


$ hive -e "describe salary" 


Ir 


述 命令 的 执行 结 采 如 下 。 


OK 

first name string 
salary int 

Time taken: 2.57 seconds 


4. 检查 Hive 表 中 的 导入 数据 。 


$ hive -e "select * from salary" 


上 壕 命 令 的 执行 结 采 如 下 。 


OK 

Alice 50000 

David 75000 

Time taken: 2.754 seconds 


原理 分 析 


这 次 ， 我 们 在 Sqoop 命 令 中 加 入 - -columns 选项 ， 指 定 将 哪 几 列 的 数据 导 
入 Hive。 该 参数 的 值 是 以 逗号 为 分 隅 符 的 列表 。 


我 们 还 用 到 了 - -where 选项 ， 用 它 指 定数 据 筛选 条 件 ， 其 作用 相当 于 SQL 
语句 中 的 WHERE 子 句 。 


组 合 使 用 上 述 两 个 选项 ， 意 味 着 Sqoop 只 会 把 薪水 值 大 于 WHERE 子 句 指定 的 
门限 值 的 员工 姓名 梨 水 导入 Hive 。 


在 成 功 执行 Sqoop 命 令 后 ， 我 们 检查 了 Hive 中 创建 的 数据 表 。 我 们 发 现 ， 表 
中 确实 只 包 侣 姓名 和 薪水 两 列 ， 接 着 我 们 输出 表 的 内 容 ， 以 验证 数据 导入 
过 程 正 确 地 应 用 了 判断 语句 。 


数据 类 型 的 问题 
我 们 在 第 8 章 曾 提 到 ，Hive 仅 支持 部 分 常用 的 SQL 数据 类 型 。 尤 其 是 ， 目 前 


Hive 尚 不 支持 DATE 和 DATETIME 数据 类 型 ， 尽 管 这 确实 是 Hive 存 在 的 一 个 
问题 。 因 此 ， 今 后 很 有 可 能 Hive 会 加 入 对 这 两 个 数据 类 型 的 支持 。 本 章 前 


几 贡 讲 到 的 例子 就 受到 了 这 个 因素 的 影响 。 尽 管 start_date 列 在 MySQL 
中 的 数据 类 型 为 DATE ，Sdqoop 在 导入 数据 时 抛 出 类 型 转换 的 警告 ， 导 致 该 
列 在 Hive 中 的 数据 类 型 变 为 STRING 。 


Sqoop 提 供 了 一 个 有 用 的 选项 ， 也 就 是 说 ， 我 们 可 以 使 用 - -map-column- 
hive 选项 明确 指定 Hive 表 中 新 建 数据 列 的 数据 类 型 。 


9.11 实践 环节 : 使 用 数据 类 型 映射 
接 下 来 ， 我 们 使 用 类 型 映射 改进 数据 导入 过 程 。 
1. 删 除 Hadoop 上 已 有 的 employees 目 孙 。 


$ hadoop fs -rmr employees 


2. 明确 使 用 类 型 映射 执行 Sqoop 命 令 。 


sqoop import --connect jdbc:mysql://10.0.0.100/hadooptest 
--username hadoopuser 

-P --table employees 

--hive-import --hive-table employees 

--map-column-hive start date-timestamp 


上 壕 命 令 的 执行 结 采 如 下 。 


12/05/23 14:53:38 INFO hive.HiveImport: Hive import complete. 


3. 检查 新 建 数据 表 的 定义 。 


$ hive -e "describe employees" 


上 壕 命 令 的 执行 结 采 如 下 。 


OK 
first_name string 
dept string 


salary int 
start date timestamp 
Time taken: 2.547 seconds 


4. 检查 导入 到 Hive 表 中 的 数据 。 


$ hive -e "select * from employees"; 


上 述 命 令 的 执行 结 采 如 下 。 


OK 

Failed with exception java.io.IOException:java.lang. 
IllegalArgumentException: Timestamp format must be yyyy-mm-dd 
hh:mm:ss[.fffffffff] 

Time taken: 2.73 seconds 


原理 分 析 


本 节 用 到 的 Sqoop 命 令 行 与 最 初 从 MySQL 向 Hive 导 入 数据 的 命令 类 似 ， 只 是 
新 增 了 一 个 列 映射 声明 。 我 们 指定 start_date 列 的 数据 类 型 为 
TIMESTAMP ， 除 此 之 外 ， 还 可 以 增加 其 他 声明 。 该 选项 的 值 是 以 逗号 为 分 
隅 符 的 列表 。 


在 确认 Sqoop 命 令 执行 成 功 后 ， 我 们 检查 了 新 建 的 Hive 数 据 表 并 验证 类 型 映 
射 确 实 发 挥 了 作用 ，start_date 列 的 数据 类 型 确实 是 TIMESTAMP ° 


接着 ， 我 们 竹 试 从 Hive 表 中 读 取 数据 ， 该 过 程 以 失败 而 告终 ，Hive 擅 出 一 
个 类 型 格式 不 匹配 的 错误 信息 。 


仔细 想 想 ， 这 也 没什么 值得 惊讶 的 。 尽 管 我 们 指定 目标 列 的 数据 类 型 为 
TIMESTAMP ， 但 从 MySQL 导 入 的 数据 类 型 实 为 DATE ， 其 中 并 不 包含 
TIMESTAMP 类 型 所 需 的 时 间 元 素 。 这 个 教训 要 牢记 。 保 证 使 用 正确 的 数据 
类 型 映射 只 是 解决 数据 类 型 问题 的 一 个 方面 ， 还 必须 同时 确保 目标 数据 符 
合 指定 的 数据 类 型 的 要 求 。 


9.12 ”实践 环节 : 通过 原始 查询 导入 数据 


本 将 学 习 如 何 使 用 原始 的 SQL 查询 筛选 目标 数据 ， 并 将 其 导入 Hive 表 。 


1. 删 除 Hadoop 上 现 有 的 employees 目 孙 。 


$ hadoop fs -rmr employees 


2. 删 除 Hive 中 已 有 的 employees 数 据 表 。 


$ hive -e 'drop table employees' 


3. 使 用 原始 查询 选 定 目标 数据 ， 使 用 Sqoop 命 令 将 其 导入 Hive 。 


sqoop import --connect jdbc:mysql://10.0.0.100/hadooptest 
--username hadoopuser -P 

--target-dir employees 

--query 'select first name, dept, salary, 
timestamp(start date) as start date from employees where 
$CONDITIONS' 

--hive-import --hive-table employees 

--map-column-hive start date-timestamp -m 1 


4. 检查 Hive 中 刚 创 建 的 employees 数 据 表 。 


$ hive -e "describe employees" 


上 壕 命令 的 执行 结 采 如 下 。 


OK 

first_name string 

dept string 

salary int 

start_date timestamp 
Time taken: 2.591 seconds 


5. 检查 employees 数 据 表 中 的 数据 。 


$ hive -e "select * from employees" 


上 壕 命 令 的 执行 结 采 如 下 。 


OK 

Alice Engineering 50000 2009-03-12 00:00:00 
Bob Sales 35000 2011-10-01 00:00:00 

Camille Marketing 40000 2003-04-20 00:00:00 
David Executive 75000 2001-03-20 00:00:00 
Erica Support 34000 2011-07-07 00:00:00 
Time taken: 2.709 seconds 


原理 分 析 


为 了 达到 目标 ， 我 们 使 用 了 一 种 截然 不 同 的 方法 完成 数据 导入 任务 。 以 
前 ， 我 们 指定 目标 数据 表 ， 然 后 使 用 Sqoop 命 令 导 入 其 部 分 或 全 部 数据 。 与 
此 不 同 ， 本 例 使 用 - -query 选项 明确 定义 一 个 SQL 碍 询 语句 ， 通 过 该 语 名 
指明 要 导入 的 数据 范围 。 


在 SQL 语 句 中 ， 我 们 选中 了 源 数 据 表 的 所 有 列 ， 并 使 用 timestamp( ) 方法 
将 start_date 列 的 数据 转换 为 合适 的 类 型 (请 注意 ， 该 方法 仅 在 日 期 的 
基础 上 加 入 00:00 时 间 元 素 ) 。 我 们 为 该 函数 的 执行 结果 取 了 个 别名 ， 便 
于 在 类 型 映射 选项 中 引用 这 些 数据 。 


因为 我 们 没有 指定 - -table 选项 ， 不 得 不 加 入 - -target-dir 选项 以 指 
定 HDFS 上 的 输出 目录 。 


Sqoop 要 求 我 们 必须 在 SQL 语 句 中 加 入 WHERE 子 句 ， 即 使 根本 不 会 用 到 这 个 
条 件 语句 。 不 指定 - -table 选项 不 仅 意 味 着 Sqoop 无 法 自动 生成 存储 导出 
数据 的 路 径 名 ， 而 且 Sqoop 不 知道 从 哪个 表 中 获取 数据 ， 进 而 也 不 知道 如 何 
为 多 个 mapper 切 分 数据 。 在 - -where 选项 后 紧 接 $CONDITIONS 变量 的 意 
义 在 于 ，$CONDITIONS 变量 会 为 Sqoop 提 供 切 分 数据 表 所 需 的 信息 。 


本 例 中 ， 我 们 采用 了 不 同 的 处 理 方式 ， 明 确 地 将 mapper 的 数量 设 为 1 ， 避 免 
了 使 用 数据 分 块 子 句 。 


在 Sqoop 执 行 完成 之 后 ， 我 们 检查 了 Hive 数 据 表 的 定义 ， 结 果 表 明 ， 所 有 列 
的 数据 类 型 都 完全 正确 。 接 着 ， 我 们 又 检查 了 表 中 数据 ， 这 次 查询 终于 成 


功 了 ， 因 为 start_date 列 的 值 已 转换 成 了 TIMESTAMP 类 型 。 


提示 :， 我 们 曾 提 到 ， 用 户 可 以 使 用 Sqoop 只 提取 数据 库 中 的 部 分 数据 ， 
0 where 和 columns 选项 可 以 限定 竺 提取 数据 的 苑 
需要 注意 的 是 ， 这 些 选 项 可 以 用 于 所 有 Sqoop 数 据 导入 任务 ， 而 与 导 
入 数据 的 目标 存储 位 置 无 关 。 


一 展 身手 


尽管 示例 中 的 数据 集 规模 太 小 ， 完 全 不 需要 对 其 进行 数据 切 分 ， 但 
$CONDITIONS 7 PEDE ESKIR. 请 修改 上 例 ， 在 Sqoop 语 名 中 使 
用 多 个 mapper， 并 明确 定义 数据 分 块 语句 。 


1. Sqgoop 和 Hive 数 据 分 块 


我 们 在 第 8 章 对 Hive 数 据 分 块 进行 了 大 量 讨论 ， 并 强调 了 它 se 
据 表 的 查询 效率 具有 重要 作用 。Sqoop 支 持 在 Hive 中 进行 数据 分 块 ， 这 是 
QARAMAS, BEDRE, EX Hives ARR 


完整 


M ME NU 我 们 使 用 - -hive- 


partition-key 选项 指定 分 区 列 ， 使 用 - -hive-partition- value 
人 Sqoop 命 令 会 根据 该 值 决定 把 导入 数据 插入 哪个 分 区 表 


这 是 一 个 好 办 法 ， 但 用 户 必 须 扣 做 相 应 的 Sqoop 语 句 玫 能 把 寻 人 数据 插入 东 
ADAK e. HH 网 BiSqoopi tef Hive H 3 区 的 支持 。 如 果 读 者 想 把 某 个 
数据 集 插入 多 个 Hive 分 区 表 ， 只 能 多 次 通过 Sqoop 语 句 逐 表 插 入 。 


2. 字段 分 隔 符 和 文本 行 分 隔 符 


截至 目前 ， 我 们 一 直上 暗中 依赖 于 某 些 默认 设置 ， 但 现在 应 该 探讨 一 下 这 些 

内 容 。 原 始 文本 文件 以 制 表 符 为 分 隔 符 ， 但 读者 可 能 注意 到 ， 导 入 HDFS 的 

数据 却 以 逗号 为 分 隔 符 。 如 果 读 者 查看 /user/Vhive/ 

warehouse/employees (这 是 Hive 在 HDFS 上 存储 源 文 件 的 默认 位 置 ) 

Ea ee 文件 中 的 记录 又 以 ASCII 码 001 作 为 分 隔 符 。 这 到 底 是 怎么 
呢 ? 


在 第 一 个 例子 中 ， 我 们 使 用 Sqoop 的 默认 分 隔 符 ， 也 就 是 说 ， 使 用 逗号 作为 
字段 间 的 分 隔 符 ， 并 使 用 \n 作为 记录 间 的 分 隔 符 。 但 是 ， 当 Sqoop 把 数据 
导入 Hive 之 后 ， 却 又 使 用 Hive 的 默认 值 ， 也 就 是 使 用 ASCII 码 001 (^A) 来 


分 隔 字段 。 
我 们 可 以 使 用 下 列 Sqoop 选 项 明确 设置 分 隔 符 。 


。fields-terminated-by : 设置 字段 间 分 隔 符 。 


e lines-terminated-by: 设置 文本 行 分 隔 符 。 

。escaped-by : 指定 转 义 字符 〈 例 如 ，\) ° 

e enclosed-by: 用 于 封闭 字段 的 字符 〈 例 如 ，") e 

。 WA 与 上 个 选项 相似 ， 但 不 是 强制 使 用 


。mysql-delimiters :使 用 MySQL 默 认 值 的 快捷 设置 。 


这 些 分 隅 符 看 似 多 得 吓人 ， 其 实 它 们 并 不 像 这 些 术语 那样 难 公 ， 有 SQL 使 
用 经 验 的 人 应 该 对 这 些 概念 和 用 法 非常 熟悉 。 前 几 个 选项 无 需 过 多 解释 ， 
但 封 财 字符 和 可 选 封闭 字符 的 侣 义 却 不 是 那么 明显 。 


这 两 个 选项 用 于 给 定 字 段 中 包含 特殊 了 字符 的 情况 。 例 如 ， 某 个 文件 以 逗号 
为 分 隅 符 ， 其 中 某 列 的 数据 类 型 为 string， 而 该 列 的 某 个 值 中 包含 有 逗号 。 
在 这 种 情况 下 ， 我 们 要 把 该 字符 串 放 入 引号 ， 这 样 才能 保证 使 用 逗号 作为 
字段 分 隔 符 。 如 果 所 有 字段 都 需要 使 用 封闭 字符 ， 那 么 就 要 使 用 “enclosed- 
by” 选 项 ， 而 如 果 只 是 部 分 字段 要 用 到 封闭 字符 ， 那 么 束 应 该 使 

用 “optionally-enclosed-by” 选 项 。 


9.13 ”从 Hadoop 导 出 数据 

我 们 曾 提 到 ，Hadoop 和 关系 数据 库 之 间 的 数据 流 是 一 个 线性 的 单 向 过 程 ， 
这 是 非常 罕见 的 。 实 际 上 ， 我 们 更 常 遇 到 把 Hadoop 处 理 过 的 数据 插入 关系 
数据 库 的 情况 。 接 下 来 ， 我 们 将 讨论 这 个 问题 。 


9.13.1 在 reducer 中 把 数据 写 入 关系 数据 库 


考虑 一 下 如 何 把 MapReduce 作 业 的 输出 数据 拷 入 关系 数据 库 ， 我 们 发 现 ， 其 
解决 方法 向 Hadoop 导 入 数据 的 方法 类 似 。 


一 种 直观 的 方法 是 修改 reducer 代 码 ， 使 其 生成 每 个 键 及 对 应 的 值 之 后 ， 直 
接 通过 JDBC 把 它们 插入 数据 库 。 我 们 不 必 像 从 关系 数据 库 导 入 数据 那样 考 
虑 如何 对 源 数 据 分 段 ， 但 仍 要 考虑 数据 库 能 够 承载 的 负荷 ， 以 及 是 否 需 要 
考虑 长 时 间 运 行 任务 的 超时 问题 。 此 外 ， Qmapperi PIRIPIRI TT 这 种 
d T 车 执行 多 次 查询 ， 而 每 次 查询 只 搬入 一 条 数据 ， 其 效率 远 低 


9.13.2 ”利用 reducer 输 出 SQL 数据 文件 


通 单 ， 较 好 的 解决 办 法 不 会 围绕 负责 生成 输出 文件 的 MapReduce 作 业 下 功 
夫 ， 而 重点 在 于 如 何 利用 它 。 


所 有 关系 数据 库 都 可 通过 定制 工具 或 是 LOAD DATA 语句 接收 源 文 件 里 的 数 
据 。 因 此 ， 我 们 可 以 改写 reducer 的 数据 输出 方法 ， 使 其 更 易于 被 插入 关系 
数据 库 。 这 就 避免 了 考虑 reducer 带 给 数据 库 的 负担， 以 及 如 何 处 理 长 时 间 
运行 任务 的 麻烦 ， 但 需要 在 MapReduce 作 业 完 成 之 后 添加 一 个 步骤 ， 把 输出 
文件 的 数据 导入 关系 数据 库 。 


9.13.3” 仍 是 最 好 的 方法 
Sqoop 还 可 以 用 于 从 Hadoop 回 关系 数据 库 导 入 数据 ， 这 应 该 没什么 奇怪 的 。 


QUE UCCUNORIUSOTUN GNE 企 线 文档 ， 束 会 觉得 这 征 理所当然 


9.14 ”实践 环节 : 把 Hadoop 数 据 导 入 MySQL 
本 节 将 演示 如 何 把 HDFS 文 件数 据 导入 MySQL 数 据 表 。 


1. 创建 newemployees.tsv 文件 ， 其 以 制 表 符 为 分 隅 符 ， 内 容 如 下 所 
ZR œ 


>q 


Frances Operations 34000 2012-03-01 
Greg Engineering 60000 2003-11-18 
Harry Intern 22000 2012-05-15 

Iris Executive 30000 2001-04-08 

Jan Support 28500 2009-03-30 


2. 在 HDFS 上 新 建 一 个 目录 ， 将 newemp1oyees,tsv 搁 入 该 目录 ° 


$hadoop fs -mkdir edata 
$ hadoop fs -put newemployees.tsv edata/newemployees.tsv 


3. 确认 employees 数 据 表 中 的 记录 数 。 


$ echo "select count(*) from employees" 
mysql -u hadoopuser -p hadooptest 


上 壕 命 令 的 执行 结 采 如 下 。 


Enter password: 
count(*) 
5 


4. 运行 Sqoop， 将 HDFS 上 的 文件 数据 导入 MySQL ° 


$ sqoop export --connect jdbc:mysql://10.0.0.100/hadooptest 
--username hadoopuser -P --table employees 
--export-dir edata --input-fields-terminated-by '*t' 


上 壕 命令 的 执行 结 采 如 下 。 


12/05/27 07:52:22 INFO mapreduce.ExportJobBase: Exported 5 
records. 


5. 再 次 检查 employees 数 据 表 中 的 记录 数 。 


Echo "select count(*) from employees" 
| mysql -u hadoopuser -p hadooptest 


上 壕 命令 的 执行 结 采 如 下 。 


Enter password: 
count(*) 
10 


c 


.检查 employees 数 据 表 中 的 数据 内 容 。 


$ echo "select * from employees" 
| mysql -u hadoopuser -p hadooptest 


上 壕 命 令 的 执行 结 采 如 下 。 


Enter password: 
first_name dept salary start_date 
Alice Engineering 50000 2009-03-12 


Frances Operations 34000 2012-03-01 
Greg Engineering 60000 2003-11-18 
Harry Intern 22000 2012-05-15 

Iris Executive 80000 2001-04-08 

Jan Support 28500 2009-03-30 


原理 分 析 


我 们 首先 创建 一 个 数据 文件 ， 并 在 该 文件 中 加 入 5 条 新 员工 数据 。 在 HDFS 
上 创建 一 个 存储 该 数据 文件 的 目录 。 


a 我 们 确认 MySQL 数 据 表 中 只 存储 了 原来 的 5 个 员工 数 
Sqoop 命 令 的 结构 与 之 前 类 似 ， 最 大 的 变化 在 于 ， 使 用 的 是 export 命令 。 

顾名思义 ， 导 出 Hadoop 数 据 并 插入 关系 数据 库 。 

本 例 用 到 了 几 个 选项 ， 它 们 和 之 前 的 用 法 相同 ， 主 要 用 于 设置 要 连接 的 数 

Ew 连接 数据 库 使 用 的 用 户 账号 和 口令 ， 以 及 要 把 数据 插入 哪个 数 


因为 我 们 要 从 HDFS 导 出 数据 ， 因 此 需要 通过 - -export-dir 选项 指定 包 
含 待 导出 数据 文件 的 目 隶 。Sqoop 会 生成 一 个 MapReduce 作 业 ， 然 后 把 该 目 


录 下 的 所 有 文件 全 部 导出 ， 因 此 导出 目录 下 有 一 个 文件 还 是 多 个 文件 对 于 
导出 任务 没有 多 大 影响 。 默 认 情 况 下 ， Sqoopz 4fEHAT mapper, WRR 
需要 导出 大 量 文件 ， 那 么 增 大 mapper 的 数量 会 提高 作业 的 运行 效率 。 读 者 
可 以 演 试 一 下 ， 但 要 确保 数据 库 能 够 承载 这 么 多 的 并 发 连接 。 


Sqoop 用 到 的 最 后 一 个 选项 指明 了 源 文 件 使 用 的 分 隔 符 ， 本 例 使 用 制 表 符 作 
为 分 隔 符 。 读 者 需要 上 自己 指明 数据 文件 的 格式 ，Sqoop 会 认为 每 条 记录 的 字 
致 (尽管 Sqoop 支 持 空 字段 值 ， 并 且 各 字段 由 
HAE) IE zT 


在 Sqoop 命 令 成 功 执行 后 ， 它 向 用 户 报告 已 导出 5 条 记 杂 。 随 后 ， 我 们 使 用 
mysql 工具 检查 数据 表 中 的 当前 记录 总 数 ， 并 接着 查看 数据 表 的 内 容 ， 以 
确认 新 员工 数据 和 原 有 的 员工 数据 都 存在 于 数据 表 中 。 


1. Sqoop 导 入 和 导 出 的 区 别 


尽管 sqoop 导 入 和 导出 在 概念 上 和 命令 行 调用 方面 非常 相似 ， 但 它们 之 间 存 
在 许多 重要 区 别 ， 值 得 我 们 深入 研究 。 


让 先 ， 在 侯 用 Sqoop 导 入 数据 时 ，Sqoop 对 数据 结构 和 数据 关 型 的 了 解 更 庄 
细 一 些 。 但 是 ， 在 导出 数据 时 ，Sqoop 只 知道 源 文件 位 置 以 及 字段 和 记录 间 
的 分 隔 符 。 此 外 ，Sqoop 导 入 数据 时 可 根据 源 数据 表 的 名 称 和 结构 自动 新 寻 
一 个 Hive 数 据 表 ， 但 只 能 把 导出 数据 插入 关系 数据库 中 的 已 有 数据 表 。 


使 用 Sqoop 导 入 数据 时 ，Sqoop 可 以 意识 到 源 数 据 与 Hive 表 中 各 列 的 数据 类 
型 是 否 匹 配 。 尽 管 之 前 对 DATE 类 型 和 TIMESTAMP 类 型 的 介绍 表明 Sqoop 在 
这 方面 做 得 不 是 很 完美 ， 但 至 少 不 必 等 到 数据 已 插入 Hive 表 之 后 才 发 现 问 
Oa d au ctl 无 需 理解 数据 类 
型 。 假 如 用 户 很 笠 运 ， 要 导出 的 数据 格式 非常 规整 ， 可 能 不 会 有 什么 麻 
烦 。 但 大 多 数 人 不 得 不 考虑 导出 数据 的 格式 转换 ， 尤 其 是 数据 中 存在 空 字 
段 和 默认 值 的 情况 下 。Sqoop 文 档 深度 讲解 了 这 些 内 容 ， 读 者 有 必要 认真 阅 
ix o 


2. 插入 和 更 新 的 对 比 
上 个 例子 比较 人 简单， 我 们 癌 关 系数 据 库 导入 的 是 全 新 数据 集 ， 它 可 以 与 表 


中 原 有 数据 同时 存在 。 默 认 情 况 下 ，Sqoop 导 出 数据 时 进行 了 一 些 列 扩展 ， 
它 把 每 条 记录 当做 一 行 新 数据 加 入 数据 表 。 


但 是 ， 如 果 我 们 以 后 想 更 新 数据 时 ， 例 如 ， 年 底 的 时 候 为 员工 涨 了 工资 
此 时 该 怎么 办 呢 ? 由 于 我 们 把 first_name 定义 为 数据 表 的 主键 ， 如 果 要 
插入 数据 的 姓名 字段 与 现 有 员工 姓名 相同 ， 那 么 插入 操作 就 会 失败 。 


在 这 种 情况 下 ， 我 们 可 以 在 Sqoop 命 令 中 设置 - -update-key ut Ea 
该 选项 指定 主键 ，Sqoop 就 会 根据 该 键 (也 可 以 是 以 逗号 分 隔 的 多 个 键 ) 生 
成 UPDATE 语句 ， 达 到 更 狐 原 有 记录 部 分 字段 的 目的 。 


提示 :， 在 这 种 模式 下 ，Sqoop 将 RA IA ERIEN RRIEK, 而 且 
如 果 被 更 新 的 数据 多 于 一 行 ，Sqoop 也 不 会 抛 出 销 误 信息 。 


假如 读者 想 在 更 新 现 有 数据 的 同时 ， 在 数据 表 中 加 入 并 不 存在 的 新 记录 ， 
可 以 将 --update-mode 选项 设置 成 a1Lowinsert。 


一 展 身手 


新 建 一 个 数据 文件 ， 其 中 包含 3 条 新 员工 记录 ， 同 时 对 2 位 老 员 工 的 薪水 进 
E ~ Sqoop 的 导入 模式 将 新 员工 数据 加 入 数据 表 ， 并 更 新 老 员工 
3817. o 


3. Sqdoop 和 Hive 导 出 


从 上 例 可 以 看 出 ，Sqoop 目 前 无 法 直接 将 Hive 数 据 表 导入 关系 数据 库 ， Bed 
对 此 不 会 感到 特别 吃惊 。 更 确切 地 说 ，Sqoop 中 提供 了 --hive-import 这 
样 的 导入 选项 ， 却 没有 提供 类 似 的 导出 选项 。 

但 是 ， 在 某 些 情况 下 ， 我 们 可 以 解决 这 个 问题 。 假 如 Hive 数 据 表 以 文本 形 
式 存储 数据 ， 我 们 可 以 设置 Sqoop， 使 其 指向 HDFS 上 存储 这 些 表 数据 文件 
的 位 置 。 如 果 数 据 表 存储 的 是 外 部 数据 ， 这 就 更 简单 了 。 但 是 如 果 Hive 数 
据 表 进行 了 复杂 的 分 区 操作 ， 那 么 文件 目录 结构 惑 更 为 复杂 。 


Hive 数 据 表 中 也 可 以 存储 二 进 制 SequenceFile，Sqoop 的 一 个 缺点 在 于 其 目 
前 无 法 透明 导出 这 种 格式 的 数据 。 


9.15 “实践 环节 : 把 Hive 数 据 导入 MySQL 
人 这 些 缺 点 ， 本 市 将 展示 如 何 使 用 Sqoop 直 接 导 出 Hive 数 据 表 


1. 删除 employees 数 据 表 中 的 所 有 数据 。 


$ echo "truncate employees" | mysql -u hadoopuser -p hadooptest 


上 壕 命 令 的 执行 结 采 如 下 。 


Query OK, © rows affected (0.01 sec) 


2. &fihive/warehouse/employees 的 内 容 。 


$ hadoop fs -1s /user/hive/warehouse/employees 


上 壕 命令 的 执行 结 采 如 下 。 


Found 1 items 
.. /user/hive/warehouse/employees/part-m-00000 


3. 使 用 Sqoop 命 令 执行 数据 导出 任务 。 


sqoop export --connect jdbc:mysql://10.0.0.100/hadooptest 
--username hadoopuser -P --table employees \ 

--export-dir /user/hive/warehouse/employees 
--input-fields-terminated-by '\001' 
--input-lines-terminated-by '^n' 


原理 分 析 


首先 ， 我 们 删除 MySQL 数 据 库 中 employees 数据 表 的 所 有 数据 ， 然 后 确 
认 该 数据 表 位 于 /user/hive/warehouse/employees 目录 。 


提示 : ”请 注意 ，Sqoop 可 能 会 在 该 路 径 下 创建 一 个 空白 文件 ， 其 文件 后 缀 
Jj SUCCESS 。 如 果 该 日 录 下 确实 存在 这 个 文件 的 话 ， 一 定 要 在 运行 
Sqoop 之 前 把 它 删 除 。 


Sqoop 的 export 命令 与 以 前 的 用 法 相似 ， 唯 一 的 区 别 在 于 ， 本 例 中 源 数 据 
文件 的 存储 位 置 发 生 了 变化 ， 并 且 明 确 指定 了 字段 和 文本 行 分 隔 符 。 回 忆 

一 下 ， 在 默认 情况 下 ，Hive 分 别 使 用 ASCII 码 9001 和 \n 作为 字段 分 陋 符 和 文 
本 行 分 隔 符 。 同 时 ， 由 于 我 们 向 Hive 导 入 数据 时 使 用 了 其 他 分 隔 符 ， 因 此 

需要 对 其 进行 检查 。 


运行 Sqoop 命 令 ， 发 现在 创建 java. sql.Date 实例 时 出 错 ， 错 误 原因 是 
IllegalArgumentExceptions 。 


这 个 问题 与 之 前 遇 到 的 问题 刚好 相反 : 原来 把 MySQL 数 据 导入 Hive 数 据 表 
时 ， 由 于 Hive 不 支持 MySQL 中 的 DATE 类 型 ， 我 们 将 其 转换 成 Hive 中 可 用 的 
TIMESTAMP 类 型 。 在 把 Hive 数 据 重新 导入 MySQL 数 据 表 时 ， 我 们 却 遇 到 了 


把 TIMESTAMP 类 型 的 数据 插入 DATE 数据 列 的 问题 。 在 不 进行 数据 转换 的 
情况 下 ， 这 是 无 法 实现 的 。 
这 两 个 例子 给 我 们 的 局 发 束 是 ， 单身 数据 转换 只 对 单身 数据 流 有 效 。 一 旦 


需要 进行 双向 数据 传输 ，Hive 和 关系 数据 库 之 间 的 数据 类 型 不 匹配 问题 会 
市 来 很 多 麻烦 ， 必 须 在 数据 传输 之 前 首 移 进行 数据 类 型 转换 。 


实践 环节 : 改进 mapper 并 重新 运行 数据 导出 命 
T 


但 是 ， 这 次 我 们 不 再 进行 数据 类 型 转换 ， 而 要 做 一 些 更 有 意义 的 事 一 一 使 
用 Hive 和 MySQL 都 支持 的 数据 类 型 修改 employees 数 据 表 的 定义 。 


1. 启动 mysq1 命令 行程 序 。 


$ mysql -u hadoopuser -p hadooptest 
Enter password: 


2. 修改 start_date 列 的 数据 类 型 : 


mysql» alter table employees modify column start date timestamp; 


上 壕 命令 的 执行 结 采 如 下 。 


Query OK, © rows affected (0.02 sec) 


Records: 0 Duplicates: 0 Warnings: 0 


3. 输出 employees 数 据 表 的 定义 。 


mysql» describe employees; 


0.0.0. 100 hadooptest 


y | Dofault Extra 

farst nawe | varchar(10) | NO "RI | NIL 

dept varchar (15) YES NLL 

salary int(11L YES NULL 

start date | timestamp No C.RRENT TIMESTAMP | on update CURRENT TIMESTAMP 


退出 mysql 程序 。 


mysql» quit; 


5. 执行 Sqoop 导 出 命令 。 


sqoop export --connect jdbc:mysq1://10.0.0.100/hadooptest 
--username hadoopuser -P -table employees 

--export-dir /user/hive/warehouse/employees 
--input-fields-terminated-by '\001' 
--input-lines-terminated-by '\n' 


述 命令 的 执行 结 采 如 下 。 


12/05/27 09:17:39 INFO mapreduce.ExportJobBase: Exported 10 
records. 


6. 检查 MySQL 数 据 库 中 的 记录 总 数 。 


$ echo "select count(*) from employees" 


| mysql -u hadoopuser -p hadooptest 


上 上 述 命 令 的 执行 结果 如 下 所 示 。 


Enter password: 
count(*) 
10 


原理 分 析 


在 最 后 一 次 执行 Sqoop 导 出 命令 之 前 ， 我 们 使 用 mysq1 命令 行 工 具 连 接 数 据 
库 ， 并 修改 了 start_date 列 的 数据 类 型 。 当 然 ， 千 万 不 能 随便 在 生产 系 
So R REENER USOS Se Mann 
来 什么 问题 。 


在 完成 这 些 修改 之 后 ， 我 们 重新 运行 Sqoop 导 出 任务 ， 这 一 次 终于 成 功 了 。 
Sqoop 的 其 他 功能 


Sdqoop 还 有 许多 其 他 功能 。 虽 然 我 们 不 再 详细 讨论 这 些 内 容 ， 但 仍 要 强调 一 
下 它们 ， 以 便 感 兴趣 的 读者 在 Sqoop 文 档 中 查阅 相关 内 容 。 


。 增 量 合并 


一 直 以 来 ， 我 们 接触 的 示例 者 是 比较 极端 的 。 确 实 ， 我 们 过 到 的 大 多 数 情 
况 都 十 同 空 日 数据 表 导 入 数据 。 目 前 也 介绍 了 一 些 处 理 增 量 数 据 的 方法 ， 
但 Sqoop 提 供 了 其 他 针对 持续 的 数据 导入 任务 的 支持 。 


Sqoop 提 出 了 增 量 导入 的 概念 。 举 个 例子 来 说 明 它 的 售 义 ， 如 末 数 据 导入 任 
务 与 日 期 有 关 ， 只 有 某 天 之 后 的 记录 才 会 被 导入 。 这 就 需要 使 用 包括 Sqoop 
在 内 的 工具 构建 一 个 长 期 运行 的 工作 流 。 


。 避免 部 分 导出 


我 们 已 经 发 现 ， 把 Hadoop 数 据 导 出 到 关系 数据 库 时 有 可 能 会 出 现 错 疼 。 在 
我 们 的 例 于 中 ， 这 个 问题 没什么 大 不 了 的 ， 因 为 该 错误 导致 所 有 记录 都 无 
法 导出 。 但 往往 会 出 现 导 出 部 分 数据 之 后 ， 导 出 任务 却 中 途 出 现 故障 的 情 
况 ， 这 时 数据 库 中 只 插入 了 部 分 数据 。 


Sqoop 使 用 分 段 表 来 消除 这 个 风险 ， 它 把 所 有 数据 导入 这 个 二 级 表 ， 只 有 成 
劝 插 入 所 有 数据 后 ， 才 会 使 用 一 次 事务 把 分 段 表 的 数据 全 部 移 到 主 表 中 。 
该 方案 对 可 知性 较 震 的 工作 负载 非常 有 效 ， 却 也 市 来 了 一 些 重要 的 限制 ， 


例如 它 不 支持 更 新 模式 。 对 数据 量 很 大 的 导入 任务 ， 由 于 使 用 了 一 个 长 时 
间 运 行 的 事务 ， 也 会 对 关系 数据 库 的 性 能 和 人 负 答 市 来 影响 。 


。 使 用 Sqoop 作 为 代码 生成 器 


puram 直 都 忽视 了 Sdqoop 运 行 过 程 中 出 现 的 一 个 错误 ， 刚 才 还 偶然 遇 到 了 这 
类 错误 一 一 由 于 Sqoop 所 需 代码 早已 存在 而 抛 出 的 异常 。 


在 执行 数据 导入 任务 时 ，Sqoop 会 生成 Jave 类 文件 ， 通 过 这 些 Java 代 码 来 访 
问 文 件 中 的 字段 和 记录 。Sqoop 在 内 部 使 用 这 些 类 ， 但 这 些 代 码 并 非 只 能 用 
于 Sqoop 调 用 。 事 实 上 ， 通 过 Sqoop 的 codegen 命令 ， 可 以 在 数据 导出 任务 
结束 之 后 重新 生成 任务 用 到 的 Java 类 。 


9.17 在 AWS 上 使 用 Sqoop 


截至 目前 ， 本 章 还 未 提 及 AWS， 这 是 因为 Sqoop 在 AWS 上 的 运行 情况 并 无 特 
别 之 处 。 我 们 可 以 在 EC2 主 机 上 运行 Sqoop， 束 像 是 在 本 地 主机 上 运行 
Sqoop 一 样 。 而 且 ， 运 行 在 EC2 主 机 上 的 Sqoop 既 可 以 访问 手工 创建 的 
Hadoop 集 群 ， 也 可 以 访问 EMR 托 管 的 Hadoop 集 群 。 如 果 需 要 的 话 ， 还 可 以 
在 这 些 Hadoop 集 群 上 运行 Hive。 唯 一 需要 考虑 的 问题 是 安全 组 访问 策略 
(security group access) ， 因 为 许多 默认 的 EC2 配 置 选 项 拒绝 多 数 关 系数 据 
库 使 用 的 端口 (MySQL 的 默认 端口 是 3306) 发 起 的 连接 。 但 是 ， 与 Hadoop 
集群 和 和 MySQL 数据库 分 别 位 于 防火 墙 或 其 他 网 络 安 全 边界 的 两 端 相 比 ， 这 
根本 就 不 是 什么 问题 。 


使 用 RDS 


以 前 ， 我 们 从 没 提 过 AWS 的 RDS (Relational Database Service， 关 系数 据 库 
RZ) ， 但 现在 很 有 必要 介绍 一 下 它 。RDS 提 供 了 托管 在 云端 的 关系 数据 
库 ， 用 户 可 以 根据 需要 选用 MySQL ` Oracle 和 Microsoft SQL Server。 使 用 
RDS 服 务 ， 用 户 不 必 再 为 数据 库 的 安装 、 配 置 、 管 理 而 耗费 精力 ， 而 且 可 
以 通过 RDS 控 制 台 或 命令 行 工 具 启 动 数 据 库 实例 。 用 户 执 行使 用 数据 库 客 
户 端 打开 数据 库 即 可 创建 数据 表 ， 并 操作 数据 。 


组 合 使 用 RDS 和 EMR 更 能 充分 发 挥 它们 的 强大 作用 ， 这 些 托管 服务 省 去 了 
手动 管理 服务 器 集群 的 搁 烦 。 如 采 读 者 要 用 到 关系 数据 库 ， 而 又 不 想 在 数 
据 库 管理 方面 痕 费 精力 ， 可 以 答 试 使 用 RDS 。 


如 有 果 读 者 使 用 EC2 主 机 生成 数据 ， 或 在 S3 中 存储 数据 ， 那 么 组 合 使 用 RDS 和 
EMR 的 效 琳 更 为 明显 。Amazon 公 司 有 一 个 通用 规则 ， 在 相同 主机 上 ， 用 户 


可 以 免费 在 不 同 服务 之 间 传 输 数 据 。 因 此 ， 用 户 可 以 使 用 一 批 EC2 主 机 生成 
大 量 数 据 ， 然 后 把 它们 插入 RDS 关 系数 据 库 以 便 查 询 ， 并 把 它们 存储 在 
EMR 作 为 档案 进行 长 期 分 析 。 把 数据 导入 存储 系统 和 处 理 系统 通常 很 有 挑 
战 性 ， 经 常会 付出 极 大 的 代价 ， 尤 其 是 需要 在 不 同 商用 系统 中 移动 数据 的 
时 候 。 使 用 EC2、RDS 和 EMR 相 互 配合 ， 可 以 减低 这 些 成 本 。 


9.18 小结 


本 章 介 绍 了 Hadoop 和 关系 数据 库 的 集成 使 用 。 特 别 是 ， 我 们 研究 了 最 第 用 
的 案例 ， 并 发 现 Hadoop 和 关系 数据 库 都 是 广 受 赞誉 的 搁 术 。 我 们 想 了 几 种 
从 关系 数据 库 向 HDFS 导 出 数据 的 办 法 ， 并 意识 到 文本 主键 无 法 实现 数据 分 
段 ， 并 且 需 要 特别 考虑 如 何 处 理 长 时 间 运 行 的 任务 。 


接着 ， 我 们 介绍 了 Sqoop。 这 是 Cloudera 公 司 捐献 给 Apache 软 件 基 金 会 的 一 
个 工具 ， 它 提供 了 实现 上 壕 数 据 移 动 的 框架 。 使 用 Sqoop 可 以 实现 从 MySQL 
器 HDFS 或 Hive 的 数据 导入 ， 但 我 们 必须 考虑 数据 类 型 是 否 兼 容 的 问题 。 
Sqoop 还 可 以 实现 相反 操作 ， 也 了 束 是 把 数据 从 HDFS 导 入 MySQL 数 据 库 。 该 
过 程 要 考虑 更 多 问题 ， 简 单 来 讲 ， 包 括 文 件 格式 的 问题 ， 插 入 数据 与 更 新 
数据 的 区 别 ， 以 及 Sqoop 兼 容 性 的 问题 。 此 外 ， 还 介绍 了 Sqoop 的 代码 生成 
和 增 量 合并 功能 。 


关系 数据 库 在 大 多 数 IT 基础 设施 中 处 于 重要 地 位 ， 甚 至 是 十 分 关键 的 。 但 
是 ， 并 不 等 于 系统 中 的 其 他 组 件 并 不 重要 。 最 近 ， 有 个 问题 变 得 日 益 突 
出 ， 那 就 是 网 页 服务 器 和 其 他 应 用 程序 生成 的 日 志文 件 越 来 越 多 。 下 一 章 
我 们 将 介绍 Hadoop 如 何 存 储 并 处 理 这 些 日 志 数 据 。 


第 10 间 ”使 用 Flume 收 集 数据 


前 两 章 ， 我 们 介绍 了 Hive 和 Sqoop 为 Hadoop 实 现 的 类 似 关系 数据 库 的 接 
O, 使 用 它们 可 以 与 “真正 的 "数据库 交 换 数 据 。 尽 管 这 是 非常 常见 的 情 
但 我 们 一 定 还 会 过 到 想 把 许多 不 同类 别 的 源 数据 导入 Hadoop 的 情 

JH e 


本 章 包括 以 下 内 容 : 
。 Hadoop 通 常 处 理 的 数据 类 别 ; 
。 把 数据 导入 Hadoop 的 简单 方法 ; 


。 Apache Flume 为 何 会 向 化 数据 导入 任务 ; 
。 由 人 简 到 繁 的 Flume 配 置 ， 
。 需要 考虑 的 非 技术 问题 ， 如 数据 的 生命 周期 。 


10.1 关于 AWS 的 说 明 


全 书 中 ， 本 章 涉及 AWS 的 内 容 最 少 。 实 际 上 ， 除 本 节 之 外 ， 本 章 基 本 不 涉 
及 AWS 的 内 容 。Amazon 没 有 提供 类 似 Flume 的 服务 ， 因 此 不 存在 专 为 AWS 
实现 的 类 似 产 品 可 供 研 究 。 男 一 方面 ， 无 论 在 本 地 主机 或 是 EC2 虚 拟 机 上 运 
行 Flume， 其 工作 原理 完全 相同 。 因 此 ， 本 章 其 余部 分 不 再 对 示例 的 运行 环 
境 提 任何 要 求 ， 它 们 在 任何 环境 中 的 运行 完全 相同 。 


10.2 无 处 不 在 的 数据 


在 讨论 Hadoop 与 其 他 系统 的 集成 问题 的 时 候 ， 很 容易 把 它 想 成 一 对 一 的 模 
式 。 数 据 从 一 个 系统 中 流出 ， 经 过 Hadoop 系 统 的 处 理 ， 然 后 被 传 给 另 一 个 


系统 。 
最 初 的 时 候 ， 事 情 可 能 确实 如 此 ， 但 实际 情况 往往 是 ， 要 用 一 系列 相互 配 
合 的 部 件 循 环 往复 地 处 理 数 据 。 本 章 关 注 的 核心 问题 是 如 何 构建 这 种 可 维 
护 的 复杂 网 络 。 

10.2.1 ”数据 类 别 

为 了 便于 讨论 ， 我 们 把 数据 分 成 以 下 两 大 类 。 

。 网 络 流量 : 数据 由 某 个 系统 生成 并 通过 网 络 连接 进行 传输 。 

。 文件 数据 : 数据 由 某 个 系统 生成 并 被 写 入 文件 系统 上 的 文件 。 

我 们 认为 ， 这 两 类 数据 的 区 别 仅仅 在 于 数据 获取 方式 不 同 。 

10.2.2 ”把 网 络 流量 导入 Hadoop 


我 们 讲 的 网 络 数据 ， 指 的 是 通过 HTTP 连 接 从 网 络 服务 器 获取 的 信息 ， 通 过 
客户 端 应 用 程序 获取 的 数据 库 内 容 ， 或 者 通过 数据 总 线 发 送 的 请 轧 。 在 以 


上 各 种 情况 中 ， 要 人 么 是 通过 客户 端 应 用 程序 从 网 络 上 获取 数据 ， 要 么 通过 
监听 某 个 端口 等 待 数据 。 


提示 : 接 下 来 的 几 个 例子 中 ， 我 们 会 使 用 cur1 程序 接收 或 发 送 网 络 数 
据 。 确 你 主机 上 已 安 狠 了 该 软件 ， 要 是 还 没 安 狠 的话， 请 提前 安 狠 。 


10.3 ”实践 环节 ;把 网 络 服务 器 数据 导入 Hadoop 


返 下 来 ， 我 们 将 介绍 如 何人 简单 地 把 网 络 服务 紫 数 据 拷贝 至 Hadoop 。 
1. 从 NameNode 的 网 页 接口 获取 文本 数据 ， 并 把 它 保存 到 一 个 本 地 文件 。 


$ curl localhost:50070 > web.txt 


2 EBOCHSANS 


$ ls -ldh web.txt 


上 壕 命 令 的 执行 结 采 如 下 。 


-rw-r--r-- 1 hadoop hadoop 246 Aug 19 08:53 web.txt 


3. 把 该 文件 拷贝 到 HDFS 。 


$ hadoop fs -put web.txt web.txt 


4. 查看 HDFS 上 的 文件 副本 。 


$ hadoop fs -1s 


上 壕 命令 的 执行 结 采 如 下 。 


Found 1 items 


-rw-r--r-- 1 hadoop supergroup 246 2012-08-19 08:53 / 
user/hadoop/web.txt 


原理 分 析 


上 例 并 没 讲 到 什么 新 奇 的 内 容 。 我 们 使 用 cur1 程序 从 内 置 的 网 页 服务 器 获 
取 NameNode 网 页 接口 的 页 面 内 容 ， 并 把 它 保存 为 一 个 本 地 文件 。 我 们 检查 
了 文件 大 小 ， 把 它 拷贝 至 HDFS， 并 验证 文件 拷贝 成 功 。 


这 一 系列 操作 本 身 并 不 值得 特别 关注 一 一 它 无 非 是 第 2 章 曾 用 过 的 hadoop 
fs 命令 的 另 一 种 用 法 。 真 正 值得 关注 的 是 采用 这 种 模式 的 原因 。 


尽管 我 们 可 以 通过 HTTP 协 议 访问 网 络 服务 上 的 数据 ， 但 可 直接 使 用 的 
Hadoop 工 具 都 是 基于 文件 的 ， 并 不 文 持 这 种 远程 的 信息 源 。 这 束 是 我 们 需 
要 先 把 网 络 数据 拷贝 到 文件 中 ， 然 后 上 传 到 HDFS 的 原因 。 


当然 ， 我 们 可 以 通过 第 3 章 讲 到 的 编程 接口 直接 把 数据 写 入 HDFS， 这 种 方 
， 。 但是， 这 种 方法 需要 用 户 为 每 个 不 同 的 网 络 数据 源 编 写 定制 
* 端 o 


一 展 身手 


通过 编程 获取 数据 并 把 它 写 入 HDFS 是 一 种 很 强 的 能 力 ， 值 得 我 们 研究 。 
Apache HTTPClient 是 一 种 非常 流行 的 HTTP Java 库 ， 它 是 HTTP 
Components 项 目的 一 部 分 ， 其 网 址 为 http://hc.apache.org/httpcomponents- 
client-ga/index.html 。 


像 刚才 那样 ， 使 用 HTTPClient 和 HDFS 的 Java 接 口 获 取 网 页 ， 并 把 它 写 入 
HDFS ° 


10.3.1 把 文件 导入 Hadoop 

上 例 介 绍 了 最 简单 的 把 文件 数据 导入 Hadoop 的 方法 ， 以 及 标准 命令 行 工 具 
或 编程 API 的 使 用 方法 。 本 和 没什么 要 特别 讨论 的 内 容 ， 因 为 本 书 从 始 至 终 
都 在 处 理 这 种 问题 。 


10.3.2 ”潜在 的 问题 


尽管 上 述 方 法 并 无 不 受 ， 能 够 正常 工作 ， 但 它们 也 存在 一 些 问题 ， 导 致 它 
们 不 适用 于 产品 。 


1. 把 网 络 数据 保留 在 网 络 上 


先 把 网 络 数据 拷贝 到 本 地 文件 ， 然 后 把 本 地 文件 放 到 HDFS 上 的 方法 会 影响 
系统 的 性 能 。 由 于 要 访问 两 次 硬盘 ， 而 硬盘 恰恰 是 系统 中 效率 最 低 的 部 
件 ， 这 束 市 来 了 额外 的 时 延 。 如 末 一 次 调用 可 以 获取 大 量 数据 ， 延 时 可 能 

不 是 个 大 问题 ， 但 此 时 硬盘 空间 就 成 为 需要 考虑 的 问题 。 但 对 于 多 次 少量 
数据 的 调用 ， 延 时 就 是 个 不 得 不 考虑 的 问题 。 


2. 对 Hadoop 的 依赖 


对 基于 文件 的 方案 而 言 ， 上 述 模 型 的 一 个 隐 含 条 件 是 ， 在 我 们 访问 文件 的 
时 候 必 ee ud 问 权 限 。 这 就 潜在 地 增加 了 
系统 依赖 性 e A 告诉 负责 下 载 网 页 文件 的 
EHL, e BRA IE Eradoup 群 信 县 的 。 有 一 个 办 法 可 以 
部 分 解决 这 个 问题 ， 那 就 是 使 用 SFTP 这 样 的 工具 把 获取 到 的 文件 保存 在 
Hadoop-aware 主 机 上 ， 然 后 再 把 它 复 制 到 HDFS 。 


3. 可 靠 性 

读者 可 能 会 注意 到 ， 上 述 方法 完全 没有 提 到 错误 处 理 机 制 。 我 们 使 用 的 这 
些 工具 都 没有 实现 内 在 的 出 错 重 斌 机制 ， 这 就 意味 着 ， 我 们 需要 在 每 次 获 
取 数 据 时 都 设计 一 种 错误 检查 和 重 斌 机制 。 

4. 多 此 一 举 

这 些 特殊 方法 的 最 大 问题 在 于 ， 目 前 存在 大 量 的 实现 类 似 任务 的 命令 行 工 
具 和 脚本 。 重 复 实 现 这 些 工 具 ， 以 及 复杂 的 错误 跟踪 所 付出 的 的 代价 会 
着 时 间 日 益 凸 显 。 

5. 一 种 通用 的 框架 

做 过 企业 计算 化 的 人 都 知道 ， 最 好 用 通用 集成 框架 来 解决 这 个 问题 "这 种 


思路 是 非常 正确 的 ， 并 且 现 在 确实 存在 一 笋 业界 熟知 的 产品 ， 它 就 是 EAI 
(Enterprise Application Integration， 企 业 应 用 集成 ) 。 


我 们 需要 的 就 是 一 种 有 Hadoop 知 识 并 易于 与 Hadoop 及 相关 项 目 整 合 的 框 
架 ， 无 需 用 户 投 入 大 量 精 力 编写 定制 的 转换 程序 。 用 户 可 以 自行 实现 这 种 
IEX, 但 接 下 来 ， 我 们 将 介绍 Apache Flume ， 它 提供 了 我 们 想 要 的 大 部 分 


10.4 Apache Flume 简 介 


Flume 是 另 一 款 与 Hadoop 紧 密集 成 的 Apache 项 目 ， 其 网 址 为 
http://flume.apache.org 。 本 章 剩 余部 分 将 主要 学 习 该 项 目 。 


在 介绍 Flume 功 能 之 前 ， 我 们 先 要 清楚 它 无 法 实现 哪些 功能 。Flume 锐 描述 
为 分 布 式 的 日 志 收 集 系 统 ， 也 束 是 说 ， 它 处 理 的 是 基于 文本 行 的 文本 数 

s zc. UBER Pis 特别 是 ， 别 指望 用 它 获取 或 传 
前 二 进 制 数 据 。 


但 是 ， 由 于 Hadoop 处 理 的 绝 大 部 分 数据 都 与 上 述 描述 相符 ， 很 可 能 Flume 可 
以 满足 读者 的 大 部 分 数据 获取 需求 。 


提示 :”Flume 也 不 是 一 个 通用 的 数据 序列 化 框架 ， 例 如 第 5 章 曾 用 到 的 
Avro ^ Thrift 和 Protocol Buffers 。 我 们 将 会 看 到 ，Flume 设 定 了 儿 种 数 
据 格 式 ， 除 这 些 格 式 之 外 ， 它 无 法 实现 其 他 的 数据 序列 化 任务 。 


Flume 可 以 从 多 个 数据 源 获 取 数 据 ， 把 这 些 数据 传 给 远程 主机 《可 能 是 一 对 
多 或 流水 线 模型 中 的 多 个 目标 ) ， 再 把 它们 传 给 多 个 目的 端 。 尽 管 Flume 提 
供 了 开发 目 定义 数据 源 和 数据 目的 端的 编程 API， 但 它 原本 可 文 持 许 多 和 见 
的 场景 。 下 面 ， 我 们 通过 安装 使 用 Flume 来 学 习 其 功能 。 


关于 版 本 的 说 明 

近期 ，Flume 项 目 发 生 了 几 个 主要 的 变动 。 原 来 的 Flume (现在 更 名 为 Flume 
OG ， 意 为 原始 版 本 ) 被 Flume NG (Next Generation) 所 取代 。 尽 管 两 个 
版 本 的 基本 原则 和 功能 非常 相似 ， 但 在 实现 上 却 存在 较 大 差异 。 

因为 Flume NG 的 使 用 会 越 来 越 广泛 ， 本 书 将 重点 介绍 它 的 相关 知识 。 在 


BATEN, Flume NG 在 某 些 方面 不 如 Flume 0OG 有 成熟， 因此， 如果 EFlume NG 
无 法 满足 读者 的 某 些 需求 ， 可 以 试 试 Flume OG 。 


10.5 “实践 环节 : 安装 并 配置 Flume 


本 和 介绍 Flume 的 下 载 、 安 装 和 配置 。 


1. 从 http:/flume.apache.org/ 下 载 最 新 版 的 Flume NG 二 进 制 文 件 ， 把 它 保 
存 到 本 地 文件 系统 。 


2. 把 文件 复制 到 目标 位 置 并 解压 。 


$ mv apache-flume-1.2.0-bin.tar.gz /opt 
$ tar -xzf /opt/apache-flume-1.2.0-bin.tar.gz 


3. 创建 符号 链接 ， 指 同 Flume 安 疼 路 径 。 


$ ln -s /opt/apache-flume-1.2.0 /opt/flume 


4. 定义 环境 变量 FLUME_HOME 。 


Export FLUME HOME-/opt/flume 


5. 把 Flume 安 装 路 径 下 的 bin 子 目录 添加 到 用 户 路 径 中 。 


Export PATH-$(FLUME HOME) /bin:$(PATH) 


6. 验证 已 设置 了 JAVA_HOME 变量 。 


Echo $(JAVA HOME) 


7. 验证 已 把 Hadoop 函 数 库 路 径 加 入 到 CLASSPATH 变 量 中 。 


$ echo ${CLASSPATH} 


8. 在 Hadoop 目 杂 下 创建 Flume 的 conf 路 径 。 


$ mkdir /home/hadoop/flume/conf 


9. 把 所 需 的 文件 拷贝 到 刚 创建 的 conf 目录 中 。 


$ cp /opt/flume/conf/1log4j.properties /home/hadoop/flume/conf 
$ cp /opt/flume/conf/flume-env.sh.sample /home/hadoop/flume/conf/ 


flume-env.sh 


10. 编辑 fLume -env , sh 并 设置 JAVA_HOME » 
原理 分 析 
Flume 的 安装 过 程 较为 简单 ， 与 我 们 以 前 安装 过 的 其 他 几 个 工具 类 似 。 


首先 ， 获 取 Flume NG 的 最 新 版 本 〈1.2.x 及 之 后 的 版 本 都 行 ) 并 保存 到 本 地 
。 然后 把 它 复 制 到 目标 位 置 ， 解 压缩 并 为 了 方便 创建 一 个 符号 链 
ES o 


我 们 需要 定义 FLUME_HOME 环境 变量 ， 并 把 安装 目录 下 的 bin 文件 夹 添 加 
人 。 和 以 前 一 样 ， 这 些 设置 都 可 以 直接 在 命令 行 或 脚本 文件 中 实 
JJ o 


Flume 要 求 本 机 已 设置 JAVA_HOME 环境 变量 ， 本 例 中 我 们 通过 echo 命 令 来 
确认 。EFlume 还 要 用 到 Hadoop 函 数 库 ， 因 此 需要 检查 CLASSPATH 环 境 变量 
的 值 ， 确 认 其 中 已 包含 了 Hadoop 郴 数 库 的 目录 。 


对 于 演示 来 讲 ， 最 后 几 个 步骤 并 非 必需 的 ， 但 在 产品 集群 中 却 会 用 到 它 
们 。Flume 会 搜索 配置 路 径 ， 其 中 包含 定义 了 默认 日 志 属 性 和 环境 变量 的 文 
件 。 我 们 发 现 ， 在 正确 设置 配置 路 径 的 情况 下 ，Flume 会 运行 得 更 好 ， 所 以 
我 们 先 创建 了 该 目录 ， 以 后 就 无 需 改动 了 。 


我 们 假设 /home/hadoop/flume 就 是 Flume 的 工作 路 径 ，Flume 配 置 文件 
和 其 他 文件 将 存储 在 该 路 低下 。 读 者 可 根据 自己 系统 的 实际 情况 改变 该 路 
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使 用 Flume 采 集 网络 数 据 


上 一 寺 我 们 已 安装 了 Flume， 本 下 将 用 它 采 集 一 些 网 络 数据 。 


10.6 ”实践 环节 把 网 络 流量 存 入 日 志文 件 


在 第 一 个 例子 中 ， 我 们 将 使 用 简单 的 Flume 配 置 ， 把 采集 到 的 网 络 数据 存 入 
主要 的 Flume 日 志文 件 。 


1. 把 下 列 内 容 存 入 agent1.conf 文件 ， 并 保存 到 Flume 的 工作 目录 下 。 


agent1 


agent1 


agent1 


agent1 


2. 启动 一 


agenti. 
agenti. 


agenti. 


agenti. 


agenti. 


agenti. 
agenti. 


agenti. 


sources - netsource 
sinks - logsink 
.Channels = memorychannel 


.Sources.netsource.type = netcat 
sources.netsource.bind - localhost 
sources.netsource.port - 3000 


sinks.logsink.type - logger 


.Channels.memorychannel.type = memory 
channels.memorychannel.capacity - 1000 
channels.memorychannel.transactionCapacity - 100 


sources.netsource.channels - memorychannel 
.sinks.logsink.channel - memorychannel 


个 Flume 代 理 。 


$ flume-ng agent --conf conf --conf-file 10a.conf --name agenti 


该 命令 


的 执行 结果 如 下 图 所 示 。 


3. 在 男 一 个 窗口 中 ， 远 程 连接 至 本 地 主机 的 3000 端 口 ， 然 后 输入 一 些 文 
7k o 


s 


$ curl telnet://localhost:3000 


4. 使 用 Ctrl + C 关 闭 curl 连 接 。 
5. 查看 Flume 日 志文 件 。 


$ tail flume.log 


该 命令 的 执行 结果 如 下 所 示 。 


2012-08-19 00:37:32,702 INFO sink.LoggerSink: Event: { headers:{} 


body: 68 65 6C 6C 6F Hello } 
2012-08-19 00:37:32,702 INFO sink.LoggerSink: Event: { headers:() 


body: 6D 65 Flume } 


原理 分 析 


首先 ， 我 们 在 Flume 工 作 目 未 下 创建 了 一 个 配置 文件 。 稍 后 会 详细 解释 
Flume 的 配置 文件 ， 但 现在 ， 假 设 Flume 从 一 个 称 为 信 源 (source) 的 部 件 
接收 数据 ， 并 把 它 写 入 称 为 信和 宿 (sink 的 目的 地 。 


本 例 中 ， 我 们 创建 了 一 个 Netcat 信 源 ， 它 监听 某 个 端口 上 的 网 络 连接 。 本 
例 中 ， 假 设 其 监听 的 是 本 地 主机 的 3000 端 口 。 


我 们 设置 的 信 答 为 1ogger 类 型 ， 它 会 把 输出 写 入 一 个 日 志文 件 。 配 置 文件 
的 剩余 部 分 定义 了 一 个 名 为 agent1 的 代理 ， 它 会 用 到 上 述 信 源 和 信 宿 。 


接 看 ， 我 们 使 用 Lume -ng 可 执行 文件 局 动 一 个 Flume 人 代理。 我 们 将 使 用 该 
工具 局 动 所 有 Flume 进 程 。 请 注意 ， 该 命令 有 下 列 几 个 选项 : 


。 agent 参数 指定 Flume 启 动 一 个 代理 ， 它 泛 指 正在 运行 的 涉及 数据 传输 
的 Flumej 进 程 ; 


。 conf 路 径 ， 之 前 已 提 到 过 其 含义 ; 
。 针对 竺 启动 进程 的 特殊 配置 文件 ; 
。 配 置 文件 里 设置 的 代理 名 称 。 


代理 启动 之 后 不 久 就 会 在 屏幕 上 输出 其 运行 结果 。 (很 明显 ， 我 们 可 以 根 
据 产品 集群 的 需要 进行 配置 ， 并 在 后 台 运 行 该 程序 ) 。 


在 另 一 个 窗口 中 ， 我 们 使 用 curl 软 件 远 程 连接 至 本 地 主机 的 3000 端 口 。 打 开 
这 种 远程 连接 会 话 的 传统 方式 是 使 用 telnet 程序 ， 但 许多 Linux 系 统 中 都 
默认 安装 了 curl ， 基 本 上 没 人 会 再 用 telnet 程序 。 


我 们 每 行 输入 一 个 词 ， 并 按 下 回 车 健 ， 然 后 使 用 “Ctrl + C” 命 令 天 闭 远程 会 
话 。 最 后 ， 我 们 查看 位 于 Flume 工 作 目 好 下 的 flume .1og 文件 内 容 ， 从 中 
发 现 了 我 们 输入 的 所 有 单词 。 


10.7 ”实践 环节 ;把 日 志 输出 到 控制 台 


在 某 些 情况 下 ， 碍 看 日 志文 件 的 内 容 并 不 是 很 方便 ， 万 其 是 在 已 经 打开 代 
理 窗口 的 时 候 。 接 下 来 ， 我 们 修改 设置 ， 将 日 志 同 时 输出 到 代理 窗口 。 


1. 启动 Flume 代 理 的 时 候 新 加 一 个 参数 。 


$ flume-ng agent --conf conf --conf-file 10a.conf --name agent1 
-Dflume.root.logger-INFO,console 


该 命令 的 执行 结果 如 下 所 示 。 


Info: Sourcing environment configuration script /home/hadoop/ 
flume/conf/flume-env.sh 


org.apache.flume.node.Application --conf-file 10a.conf --name 
agenti 


2012-08-19 00:41:45,462 (main) [INFO - org.apache.flume.lifecycle. 


LifecycleSupervisor.start(LifecycleSupervisor.java:67)] Starting 
lifecycle supervisor 1 


o 


2. 在 男 一 个 窗口 中 ， 通 过 cur1 程序 连接 服务 大 


$ curl telnet://localhost:3000 


3. 分 两 行 输入 Hello 和 Flume ， 按 下 “Ctrl + C"” 组 合 键 ， 然 后 查看 代理 窗 
LI o 


原理 分 析 
本 例 讲 到 的 用 法 在 调试 或 创建 新 数据 流 时 非常 有 用 。 
从 上 例 可 以 看 出 ， 默 认 情 况 下 ，Flume 会 把 其 日 志 写 入 保存 在 文件 系统 的 文 


件 内 。 更 确切 地 说 ， 该 动作 是 由 conf 路 径 下 的 log4j 属 性 文件 指定 的 。 在 某 
"E 我 们 想 立 即 获 得 反馈 ， 而 无 需 经常 查 看 日 志文 件 或 改动 属性 文 


在 命令 行 中 明确 设置 flume ,root .logger 变量 ， 就 可 以 重 写 日 志 模 块 的 
默认 配置 ， 使 Fume 把 输出 直接 发 送 给 代理 窗口 。 日 志 模 块 是 标准 的 log4j， 
因此 它 支 持 常 用 的 日 志 等 级 ， 例 如 DEBUG FINFO ° 


把 网 络 数据 写 入 日 志文 件 
在 默认 情况 下 ，Flume 信 宿 会 把 收 到 的 数据 写 入 日 志文 件 ， 这 种 方式 有 一 些 


缺点 ， 尤 其 是 当 我 们 想 在 其 他 程序 中 使 用 这 些 数据 的 时 候 。 通 过 设置 另 一 
种 信和 宿 ， 我 们 可 以 把 数据 写 入 易 用 性 更 强 的 数据 文件 。 


10.8 ”实践 环节 : 把 命令 的 执行 结果 写 入 平面 文件 


本 市 将 介绍 一 种 新 的 信 源 类 型 并 在 实践 中 使 用 它 


1. 在 Flume 的 工作 目录 下 新 建 agent2.conf 文件 ， 并 把 下 列 内 容 保 存 到 
VAGUE 


agent2.sources - execsource 
agent2.sinks - filesink 
agent2.channels - filechannel 


agent2.sources.execsource.type - exec 
agent2.sources.execsource.command = cat /home/hadoop/message 


agent2.sinks.filesink.type - FILE ROLL 
agent2.sinks.filesink.sink.directory - /home/hadoop/flume/files 
agent2.sinks.filesink.sink.rollInterval - 


agent2.channels.filechannel.type - file 
agent2.channels.filechannel.checkpointDir - 
/home/hadoop/flume/fc/checkpoint 
agent2.channels.filechannel.dataDirs - /home/hadoop/flume/fc/data 


agent2.sources.execsource.channels - filechannel 
agent2.sinks.filesink.channel - filechannel 


2. 在 根 目录 下 创建 一 个 简单 的 测试 文件 。 


$ echo "Hello again Flume!" > /home/hadoop/message 


3. 启动 代理 。 


$ flume-ng agent --conf conf --conf-file agent2.conf --name agent2 


4. £55 — P BED B, RAA TFH CH IE Gs 


$ ls files 
$ cat files/* 


上 上述 命 令 的 结果 如 下 所 示 。 


n ume! 
hadoop@vml6:~/flume$ ls files 
1357479289745- 1 

me$ more files/1357479289745-1 


hadoopQvml6:-/flume$ | | 


原理 分 析 


本 例 与 前 儿 个 例子 的 工作 流程 类 似 。 我 们 先 为 Flume 代 理 创建 一 个 配置 文 
件 ， 接 着 运行 该 代理 ， 之 后 确认 它 抓 到 了 我 们 想 要 的 数据 。 


这 次 我 们 用 的 是 exec 信 源 和 file_rol11l 信 往 。 顾 名 思 义 ，exec 信 源 在 主机 
上 执行 一 个 命令 并 将 捕获 的 输出 作为 Flume 代 理 的 输入 。 虽 然 在 上 例 中 ， 只 
执行 了 一 次 命令 ， 但 这 只 是 为 了 演示 其 原理 。 更 为 常见 的 情况 是 ， 代 码 中 
用 到 多 条 命令 以 生成 持续 的 数据 流 。 需 要 注意 的 是 ， 读 者 可 以 对 exec 信 和 宿 进 
行 配 置 ， 使 其 在 命令 终止 的 时 候 重 启 命 令 。 


Flume 代 理 的 输出 被 写 入 配置 文件 的 输出 文件 中 。 默 认 人 情况 下 ，Flume 每 隔 
30 秒 钟 将 输出 滚动 写 入 到 一 个 新 文件 中 。 为 了 便于 在 单个 文件 中 跟 踩 Flume 
的 输出 ， 我 们 关闭 了 上 述 功 能 。 

我 们 发 现 ， 输 出 文件 中 确实 包含 指定 的 exec 命令 的 输出 内 容 。 

日 志 信 宿 与 文件 信 宿 


读者 可 能 会 对 Flume 中 同时 存在 日 志 信 宿 和 文件 信 宿 感到 困惑 。 从 概念 来 
讲 ， 它 们 完成 的 任务 完全 相同 ， 那 么 区 别 在 什么 地 方 呢 ? 


实际 上 ，logger 信 宿 比 其 他 信箱 更 适合 用 作 调 试 工具 。 它 不 仅仅 记录 Flume 
捕获 的 信 源 信息 ， 同 时 加 入 了 许多 元 数据 和 事件 。 然 而 ， 文 件 信 和 宿 准 确 地 
记录 输入 数据 ， 因 为 这 些 数据 在 传 给 Flume 时 没有 发 生 任 何 变 化 (如果 需 要 
修改 数据 ， 这 也 是 可 以 实现 的 ， 稍 后 会 看 到 这 种 情况 ) 。 


在 大 多 数 情 况 下 ， 读 者 想 用 文件 信和 窒 捕 获 输 入 数据 ， 但 在 开发 过 程 中 也 可 
能 会 根据 需要 用 到 日 志 信 和 宿 。 


10.9 ”实践 环节 : 把 远程 文件 数据 写 入 本 地 平面 文件 


本 下 将 展示 另 一 个 把 数据 写 入 文件 信 宿 的 例子 。 这 次 ， 我 们 会 用 到 Flume 的 
另 一 个 功能 一 一 从 远程 客户 端 接收 数据 。 


1. 把 下 列 内 容 保 存 到 Flume 工 作 目 录 下 的 agent3.conf 文件 中 。 


agent3.sources = avrosource 
agent3.sinks - filesink 
agent3.channels - jdbcchannel 


agent3.sources.avrosource.type - avro 
agent3.sources.avrosource.bind - localhost 
agent3.sources.avrosource.port - 4000 
agent3.sources.avrosource.threads - 5 


agent3.sinks.filesink.type - FILE ROLL 
agent3.sinks.filesink.sink.directory - /home/hadoop/flume/files 
agent3.sinks.filesink.sink.rollInterval = 0 


agent3.channels.jdbcchannel.type = jdbc 


agent3.sources.avrosource.channels - jdbcchannel 
agent3.sinks.filesink.channel - jdbcchannel 


2. 创建 新 测试 文件 /home/hadoop/message2 。 


Hello from Avro! 


3. 启动 Flume 代 理 。 


$ flume-ng agent -conf conf -conf-file agent3.conf -name agent3 


4. 在 男 一 个 窗口 中 ， 使 用 Flume Avro 客户 端 回 agent3 发 送 文 件 。 


$ flume-ng avro-client -H localhost -p 4000 -F /home/hadoop/message 


5. 和 以 前 一 样 ， 检 查 输出 路 径 中 的 文件 内 容 。 


$ cat files/* 
| ———————— —Á Ü, " 


原理 分 析 


和 以 前 一 样 ， 我 们 新 建 一 个 配置 文件 。 这 次 ， 我 们 使 用 的 是 Avro 信 源 。 回 
忆 一 下 ， 第 5 章 曾 讲 到 ，Avro 是 一 个 数据 序列 化 框架 ， 也 就 是 说 ， 它 负责 对 
数据 进行 封包 ， 并 把 数据 从 网 络 中 的 一 个 地 方 传 到 另 一 个 地 方 。 与 Netcat 信 
源 类 似 ，Avro 信 源 对 网 络 参数 进行 配置 。 本 例 中 ， 它 会 监听 本 地 主机 的 
4000 病 口 。 我 们 配置 代理 使 用 文件 信 答 ， 之 后 局 动 该 代理 。 


Flume 既 会 用 到 Avro 信 产 ， 也 会 用 到 独立 的 Avro 客户 端 。 后 者 可 用 于 读 取 文 
件 内 容 并 把 它 发 给 网 络 上 任何 位 置 的 Avro 信 源 。 在 本 例 中 ， 我 们 使 用 本 地 
主机 作为 Avro 信 源 ， 但 要 注意 的 是 ，Avro 客 户 端 需要 ;准确 知道 Avro 信 源 的 


主机 名 和 站 口号 。 因 此 ， 这 并 不 是 一 个 限制 因素 ，Avro 客 户 端 可 以 把 文件 
发 给 网 络 上 任何 位 置 的 处 于 监听 状态 的 Flume Avro 信 源 。 


Avro 客户 端 读 取 文 件 内 容 ， 把 它 发 给 Flume 代 理 ， 而 代理 会 把 这 些 数 据 写 入 
文件 信 答 。 通 过 检查 输出 文件 的 内 容 ， 我 们 确认 Flume 运 作 正 常 。 


10.9.1 信 源 、 信 和 宿 和 信道 


我 们 故意 在 前 几 个 例子 中 使 用 了 多 种 信 产 、 信 簿 和 信道 ， 目 的 仅 是 为 了 说 
明 组 合 使 用 这 些 部 件 。 但 是 ， 我 们 没有 详细 人 研究 它们 ， 尤 其 是 信道 。 现 
在 ， 我 们 将 深入 研究 这 些 内 容 。 


1. fei 


我 们 已 经 学 习 了 三 种 信 源 : Netcat, exec (可 执行 文件 ) DL Avro ° Flume 
NG 还 支持 使 用 一 种 序列 生成 器 作为 信 源 (主要 用 于 测试 ) ， 以 及 读 取 
syslogd 数据 的 信 源 〈 既 支持 TCP 也 支持 UDP) 。 我 们 在 代理 中 配置 信 源 ， 
信 源 在 接收 到 足够 数据 可 以 生成 一 个 Flume 事 件 时 ， 它 会 把 新 创建 的 事件 发 
给 信道 。 尽 管 信 源 的 逻辑 可 能 与 它 读 取 数 据 、 转 化 事件 以 及 处 理 故 障 的 方 
式 有 关 ， 但 它 却 对 事件 的 存储 方式 一 无 所 知 。 信 源 负 责 把 事件 传 给 用 户 设 
置 的 信道 ， 但 如 何 处 理事 件 却 是 对 信 源 不 可 见 的 。 


2. 信 宿 


除 之 前 用 到 的 logger 和 fle_roll 信 宿 之 外 ，EFlume 还 支持 HDFS、HBase (两 种 
类 型 ) 、Avro (用 于 代理 链 ) ^ null (用 于 测试 ) 和 IRC (用 于 互联 网 中 继 
聊天 服务 ) 这 几 种 信 宿 。 从 概念 上 来 讲 ， 信 宿 与 信 源 的 概念 正好 相反 。 


信和 窒 等 厦 从 信道 接收 事件 ， 但 它 对 信道 的 内 部 工作 原理 一 无 所 知 。 在 接收 
到 数据 后 ， 信 和 窒 会 把 事件 分 发 给 各 目的 目标 主机 ， 并 负责 处 理 超时 、 重 试 
以 及 循环 之 类 的 问题 。 


3. 信道 
那么 ， 这 些 连 接着 信 源 和 信 宿 的 神奇 信道 究竟 是 什么 呢 ? 就 像 名 字 和 前 面 


人 
|| o 


当 我 们 定义 信 源 和 信道 时 ， 它 们 在 如 何 读 取 和 写 入 数据 方面 有 较 大 差异 。 

例如 ，exec 信 源 接 收 数据 的 速率 远 快 于 fle_roll 信 和 宿 的 写 入 速度 ， 或 者 信 源 
有 时 需要 暂停 数据 写 入 〈 例 如 在 切换 到 新 文件 的 时 候 ， 或 处 理 系统 IO 阻塞 
的 时 候 ) 。 因 此 ， 信 道 需要 在 信 源 和 信道 之 间 缓 存 数 据 ， 这 样 才能 使 数据 
ein CH 这 也 是 配置 文件 的 信道 配置 部 分 包括 容量 之 类 的 配置 
ZUR HJIR A 


memory 信 道 是 最 容易 理解 的 一 种 信道 类 型 ， 因 为 代理 从 信 源 把 事件 读 入 内 
存 ， 然 后 传 给 信和 窒 。 但 如 果 代 理 进 程 在 该 过 程 中 途 由 于 软件 或 硬件 故障 而 
月 演 ， 那 么 此 时 memory 信 道中 的 所 有 数据 都 会 永久 丢失 。 


我 们 用 过 的 file 和 JDBC 信道 会 永久 存储 事件 ， 以 防 这 种 意外 的 数据 丢失 。 
在 从 信 源 读 取 事件 之 后 ，file 信 道 将 事件 内 容 写 入 文件 系统 上 的 文件 ， 只 有 
代理 成 功 将 事件 传 给 信 答 后 ， 该 文件 才 会 被 删除 。 类 似 地 ，JDBC 信 道 使 用 
一 个 内 内 的 Derby 数 据 库 以 可 恢复 的 形式 存储 事件 。 


这 是 一 种 典型 的 性 能 和 可 靠 性 之 间 的 权衡 问题 。memory 信 道 效 率 最 高 ， 但 
有 数据 丢失 的 风险 。fle 和 JDBC 信 道 的 效率 相对 较 低 ， 但 能 保证 把 数据 传 给 
信 答 。 具 体 选 用 哪 种 信道 取决 于 应 用 程序 以 及 每 个 事件 的 价值 


提示 : 别 在 这 个 问题 上 太 费 心思 。 在 实际 使 用 中 ， 答 案 通常 是 很 明显 
的 。 同 时 也 要 仔细 考虑 用 到 的 信 源 和 信箱 的 可 靠 性 。 如 果 它 们 都 靠 不 
住 ， 会 丢失 一 些 事件 ， 那 还 有 必要 使 用 永久 信道 吗 ? 

4. 定制 信 源 、 信 道 和 信和 宿 


读者 可 能 会 认为 现 有 的 信 源 ` 信道 和 信箱 太 少 了 ， 千 万 别 这 么 想 。Flume 提 
供 了 一 个 目 定义 信 源 、 信 道 、 信 宿 的 接口 。 另 外 ，Flume 0G 的 一 部 分 组 件 
还 没有 迁移 到 Flume NG 中 ， 但 它们 迟早 会 出 现在 Flume NG 中 的 。 


10.9.2 ”Flume 配 置 文件 


上 一 节 ， 我 们 已 经 讨论 了 信 源 、 信 和 宿 和 信道 。 接 下 来 ， 我 们 将 详细 人 研 完 一 
个 以 前 用 过 的 配置 文件 。 


agent1.Sources = netsource 
agenti.sinks = logsink 


agenti.channels = memorychannel 


上 述 这 些 行 指定 了 代理 的 名 称 ， 并 定义 了 与 之 相关 的 信 源 、 信 答 和 信道 。 
每 一 行 都 可 以 有 多 个 值 ， 这 些 值 以 空格 为 分 隅 符 。 


agenti.sources.netsource.type = netcat 
agenti.sources.netsource.bind = localhost 
agenti.sources.netsource.port = 3000 


上 述 行 设置 了 信 源 的 各 个 属性 。 因 为 我 们 使 用 了 Netcat 信 源 ， 配 置 项 的 值 指 
定 了 绑 定 网 络 的 方式 。 不 同类 型 的 信 兰 有 其 目 身 独 有 的 配置 变量 。 


agenti.sinks.logsink.type = logger 


ed 的 logger 信 答 ， 其 具体 设置 将 通过 命令 行 或 log4j 属 性 文 
实现 。 


agenti.channels.memorychannel.type = memory 
agenti.channels.memorychannel.capacity = 1000 
agenti.channels.memorychannel.transactionCapacity - 100 

These lines specify the channel to be used and then add the type 
specific configuration values. In this case we are using the memory 


channel and we specify its capacity but - since it is non-persistent - 
no external storage mechanism. 

agenti.sources.netsource.channels = memorychannel 
agenti.sinks.logsink.channel = memorychannel 


最 后 几 行 设置 了 信 源 和 信 宿 要 用 到 的 信道 。 尽 管 不 同 的 代理 要 使 用 不 同 的 
配置 文件 ， 但 为 了 简便 也 可 以 在 一 个 配置 文件 中 完成 多 个 代理 的 设置 ， 因 
为 各 个 代理 之 间 会 实现 必要 的 分 隔 。 但 是 ， 这 会 使 配置 文件 显得 非常 繁 
琐 ， 可 能 会 吓 坏 Flume 的 初学 者 。 某 个 代理 也 可 以 包含 多 个 流 ， 例 如 ， 我 们 
可 以 把 前 两 个 例子 合并 到 同一 个 配置 文件 和 代理 。 


一 展 身手 


动手 实现 它 吧 ! 把 agent1 和 agent2 合并 为 一 个 代理 ， 并 创建 一 个 配置 文 
件 完成 下 列 设 置 。 


。 使 用 Netcat 信 源 和 logger 信 和 宿 。 


。 使 用 exec 信 源 和 file 信 答 。 


。 分别 为 上 述 信 源 信 答对 实现 一 个 memory 人 信道 。 
为 了 帮助 读者 顺利 起 步 ， 作 者 给 出 一 些 定 义 作为 示例 。 


agentx.sources = netsource execsource 
agentx.sinks - logsink filesink 


agentx.channels = memorychanneli memorychannel2 


10.9.3 一 切 都 以 事件 为 核心 

在 学 习 新 例子 之 前 ， 我 们 再 讨论 一 个 概念 。 究 竞 什么 是 事件 呢 ? 

回忆 一 下 ，Flume 显 然 以 日 志文 件 为 基础 ， 那么 在 大 多 数 情况 下 ， 事 件 束 相 
当 于 一 行 接 一 行 的 文本 。 我 们 曾 在 信 源 和 信 宿 中 看 到 过 这 样 的 数据 。 


但 是 ， 事 件 并 非 全 部 是 文本 数据 。 例 如 ，UDP syslogd 信 源 把 接收 到 的 每 个 
数据 包 当 做 一 个 事件 ， 并 在 系统 中 传输 。 在 使 用 这 种 类 型 的 信 源 和 信 宿 
时 对 事件 的 定义 保持 不 变 ， 而 当 污 到 文 件 时 ， 我 们 不 得 不 使 用 基于 文本 
titi 含 。 


10.10 ”实践 环节 : 把 网 络 数 据 写 入 HDFS 
在 专门 研究 Hadoop 的 书 中 讨论 Hlume， 但 至 今 为 止 却 尚 未 介绍 如 何在 


Hadoop 中 使 用 Flume， 多 少 有 点 不 太 合适 。 拉 下来， 我们 将 要 介绍 如 何 把 数 
18 5 AHDFS 。 


1. 在 Flume 工 作 目 录 下 新 建 agent4.conf 文件 ， 并 把 以 下 内 容 保存 到 该 
人 


agent4.sources = netsource 
agent4.sinks - hdfssink 
agent4.channels - memorychannel 


agent4.sources.netsource.type - netcat 
agent4.sources.netsource.bind localhost 
agent4.sources.netsource.port 3000 


agent4.sinks.hdfssink.type = hdfs 
agent4.sinks.hdfssink.hdfs.path = /flume 
agent4.sinks.hdfssink.hdfs.filePrefix = log 
agent4.sinks.hdfssink.hdfs.rollInterval = 0 
agent4.sinks.hdfssink.hdfs.rollCount = 3 
agent4.sinks.hdfssink.hdfs.fileType = DataStream 


agent4.channels.memorychannel.type - memory 
agent4.channels.memorychannel.capacity - 1000 
agent4.channels.memorychannel.transactionCapacity - 100 


agent4.sources.netsource.channels - memorychannel 
agent4.sinks.hdfssink.channel - memorychannel 


2. 启动 代理 。 


$ flume-ng agent -conf conf -conf-file agent4.conf -name agent4 


3. 在 男 一 个 窗口 中 ， 开 启 一 个 远程 连接 并 向 Flume 发 送 7 个 事件 。 


$ curl telnet://localhost:3000 


4. 查看 输出 目录 中 的 文件 ， 并 检查 文件 内 容 。 


$ hadoop fs -1s /flume 


$ hadoop fs -cat "/flume/*" 


上 上述 命 令 的 执行 结果 如 下 图 所 示 。 
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原理 分 析 


这 次 ， 我 们 使 用 的 是 Netcat 信 源 和 HDFS 信 道 。 从 配置 文件 中 可 以 看 出 ， 我 

们 需要 设置 文件 位 置 、 文 件 前 缀 以 及 从 某 个 文件 切换 到 男 一 个 文件 的 策略 

等 内 容 。 本 例 中 ， 我 们 指明 文件 位 于 /flume 目录 下 ， 每 个 文件 都 以 10g- 

p TETUR (很 明显 ， 这 么 少 的 数据 只 能 
测试 


在 启动 代理 后 ， 我 们 再 次 使 用 curl 向 Flume 发 送 7 个 事件 ， 每 个 事件 仅 包 含 1 
。 接着， 我 们 使 用 Hadoop 命 令 行 工具 碍 看 /flume 目 录 并 验证 输入 数据 
1X 53 AHDFS 。 


请 注意 ， 第 三 个 HDFS 文 件 扩展 名 为 ,tmp。 回 忆 一 下 ， 我 们 设置 的 是 每 个 
文件 包含 3 条 记录 ， 但 仅 输入 7 个 值 。 因 此 ， 有 2 个 文件 已 达到 其 数据 容量 ， 
而 第 3 个 文件 则 刚刚 开始 。Flume 用 .tmp 后 级 标记 正在 写 入 的 文件 ， 这 就 一 
ie Xx 分 出 完整 文件 和 正在 写 入 的 文件 ， 而 MapReduce 作 业 只 处 理 完整 文 


10.11 ”实践 环节 : 加 入 时 间 惟 


前 面 我 们 曾 提 到 Flume 提 供 了 一 些 机 制 ， 用 于 写 入 稍微 复杂 的 文件 数据 。 本 
? i HDPENPESUSPU 通 的 做 法 一 一 把 动态 生成 的 时 间 难 和 数据 一 同 写 


1. 把 下 列 配 置 内 容 保存 为 agent5 .conf 文件 。 


agent5.Sources = netsource 
agent5.sinks = hdfssink 
agent5.channels - memorychannel 


agentb5.sources.netsource.type netcat 
agentb5.sources.netsource.bind localhost 
agentb5b.sources.netsource.port = 3000 
agent5.sources.netsource.interceptors - ts 


agent5.sources.netsource.interceptors.ts.type - org.apache.flume. 
interceptor.TimestampInterceptor$Builder 


agent5.sinks.hdfssink.type = hdfs 
agent5.sinks.hdfssink.hdfs.path = /fljume-%Y-%m-%d 
agent5.sinks.hdfssink.hdfs.filePrefix = log- 
agent5.sinks.hdfssink.hdfs.rollInterval = 
agent5.sinks.hdfssink.hdfs.rollCount = 3 
agent5.sinks.hdfssink.hdfs.fileType = DataStream 


agent5.channels.memorychannel.type - memory 
agent5.channels.memorychannel.capacity - 1000 
agent5.channels.memorychannel.transactionCapacity - 100 


agent5.sources.netsource.channels - memorychannel 
agent5.sinks.hdfssink.channel = memorychannel 


2. 启动 代理 o 


$ flume-ng agent -conf conf -conf-file agent5.conf -name agent5 


3. 在 另 一 个 窗口 中 ， 开 启 一 个 远程 连接 会 话 ， 并 向 Flume 发 送 7 个 事件 。 


$ curl telnet://localhost:3000 


4. 查看 HDFS 上 的 输出 文件 。 


$ hadoop fs -1s / 


代码 输出 如 下 所 示 。 


原理 分 析 


我 们 对 上 一 个 配置 文件 进行 了 一 些 改动 ， 为 Netcat 信 源 新 加 一 个 
interceptor 属性 ， 并 指定 该 属性 值 为 TijimestampInterceptor 。 


Flume 拦 截 髓 其 实 束 是 一 些 插 件 ， 它 们 可 以 在 从 信 源 向 信和 窒 传 输 事件 的 过 程 
中 操作 和 修改 事件 。 大 多 数 拦 截 占 要 么 在 原 事件 的 基础 上 加 入 一 些 元 数据 

(本 例 即 是 这 种 情况 ， 要 么 基于 某 些 规则 删 去 一 些 事件 。 除 了 几 个 内 置 
的 拦截 右 外 ，Flume 还 提供 了 用 户 目 定义 拦截 器 的 机 制 。 


本 例 中 我 们 使 用 timestamp 拦截 天 ， 它 在 事件 元 数据 的 基础 上 附加 了 读 取 事 
p. 的 Unix 时 间 崔 。 通 过 这 种 方式 ， 我 们 扩展 了 写 入 事件 的 HDFS 路 径 的 多 
次 o 


前 几 个 例子 中 ， 我 们 只 是 把 所 有 事件 写 入 /flLume 路 径 ， 本 例 中 ， 我 们 把 事 
件 的 写 入 路 径 设 置 为 /flume-%Y-%m-%d 。 在 运行 代理 并 向 Flume 发 送 一 些 
数据 之 后 ， 我 们 查看 HDFS， 发 现 事 件 输出 路 径 带 有 “年 /月 /日 ?这样 的 词 


级 。 


HDFS 信 和 窒 文 持 许 多 其 他 变量 ， 例 如 信 源 的 主机 名 以 及 其 他 临时 变量 ， 使 用 
这 些 临 时 变量 可 以 以 秒 为 单位 对 数据 进行 准确 分 块 。 


拦截 絮 的 功能 非常 明显 。 之 前 ， 代 理 将 所 有 事件 写 入 同一 个 信箱 路 径 ， 这 
样 随 着 时 间 推 移 ， 该 目录 变 得 越 来 越 大 。 而 使 用 拦截 右 之 后 ， 不 仅 可 以 实 
现 数据 的 自动 分 块 ， 简 化 了 数据 管理 ， 而 且 便 于 MapReduce 作 业 使 用 这 些 数 
据 。 例 如 ， 假 如 MapReduce 作 业 每 次 处 理 的 都 是 一 小 时 内 的 数据 ， 那 么 束 可 
人 分 块 ， 写 入 不 同 路 径 ， 这 样 束 会 极 大 位 化 该 
过 程 。 


准确 的 说 ， 拦 截 锅 为 Flume 中 传输 的 事件 添加 了 完整 的 Unix 时 间 崔 ， 也 喊 是 
说 ， 该 时 间 戳 可 以 精确 到 秒 。 本 例 中 ， 我 们 在 路 径 名 中 只 用 到 了 和 日 期 相 
关 的 部 分 ， 如 果 读 者 需要 以 小 时 或 更 细 粒 度 对 数据 进行 分 块 ， 那 么 就 会 用 
到 与 时 间 相 关 的 变量 。 


提示 :上进 内 容 假设 处 理事 件 时 的 时 间 戳 足以 满足 读者 需求 。 假 如 一 批 
文件 同时 被 处 理 并 反馈 到 Flume 系 统 ， 那 么 文件 数据 的 时 间 堆 应 该 是 另 一 
个 时 间 ， 而 不 是 它们 被 处 理 的 时 间 。 在 此 情况 下 ， 读 者 需要 编写 自 定 义 

拦截 右 基 于 文件 内 容 设置 时 间 稚 。 


使 用 Sqoop 还 是 使 用 Flume 

如 果 读 者 需要 把 关系 数据 库 中 的 数据 导出 到 HDFS 上 ， 那 么 Sqoop 和 Flume 这 
两 个 工具 哪个 更 合适 ? 我 们 已 经 了 解 了 Sqoop 如 何 执行 导出 任务 ， 使 用 
Flume 也 可 以 完成 类 似 任务 ， 既 可 以 编写 自 定 义 代码 也 可 以 在 exec 信 源 中 调 
用 mysql 命令 。 


e 。 要 导出 的 数据 是 日 志 数 据 吗 ? 还 是 更 复杂 的 数 


在 很 大 程度 上 ，Flume 被 设计 用 于 处 理 日 志 数据 ， 事 实证 明 ， 它 擅长 处 理 这 

类 数据 。 但 在 大 多 数 情 况 下 ，Flume 网 络 负责 把 事件 从 信 源 传 到 信和 宿 ， 却 不 

会 真正 传输 日 志 数 据 本 吴 。 如 条 用 户 在 多 个 关系 数据 库 中 存 有 日 志 数 据 ， 

Lg 尽管 我 会 怀疑 数据 库 是 否 有 能 力 长 期 存储 
rn s 


非 日 志 数 据 可 能 需要 执行 一 些 只 有 Sqoop 才 能 完成 的 数据 操作 。 上 一 章 我 们 
使 用 Sqoop 完 成 的 许多 数据 转换 ， 例 如 指定 目标 列 的 子 集 ， 无 法 使 用 Flume 


完成 还 有 ， 


如 果 用 户 需 要 处 理 结构 化 数据 的 各 个 字段 ， 单 独 使 用 Flume 也 


无 法 完成 这 个 任务 。 如 果 读 者 想 要 与 Hive 集 成 ， 那么 此 时 Sqoop 十 唯一 的 选 


BR o 


当然 


然 ， 请 记 住 ， 这 些 工具 还 可 以 协同 处 理 更 复杂 的 任务 。 我 们 可 以 使 用 


Flume 把 事件 汇聚 到 HDFS， 使 用 MapReduce 进 行 处 理 ， 然 后 通过 Sqoop 导 出 
到 一 个 关系 数据 库 中 。 


10.12 ”实践 环节 : 多 层 Flume 网 络 


本 节 我 们 将 实践 如 何 使 用 一 个 Flume 代 理 作 为 男 一 个 代理 的 信和 宿 。 


1. 把 下 列 内 容 保 存 到 agent6 .conf 文件 。 


agent6. 
agent6. 
agent6. 


agent6. 
agent6. 
agent6. 
agent6. 


agent6. 
agent6. 
agent6. 


agent6. 
agent6. 
agent6. 


agent6. 
agent6. 


sources = avrosource 


sinks - avrosink 

channels - memorychannel 
sources.avrosource.type - avro 
sources.avrosource.bind - localhost 
sources.avrosource.port - 2000 


sources.avrosource.threads = 5 


sinks.avrosink.type - avro 
sinks.avrosink.hostname - localhost 
sinks.avrosink.port - 4000 


channels.memorychannel.type - memory 
channels.memorychannel.capacity - 1000 
channels.memorychannel.transactionCapacity - 100 


sources.avrosource.channels - memorychannel 
sinks.avrosink.channel - memorychannel 


2. 按照 agent3 .conf 的 配置 局 动 一 个 代理 ， 也 束 是 说 ， 使 用 Avro 信 源 和 
file 信 答 。 


$ flume-ng client -conf conf -conf-file agent3.conf agent3 


MEN 


3. 在 第 二 个 窗口 中 ， 按 照 agent6 ,conf 的 配置 启动 男 一 个 代理 。 


$ flume-ng client -conf conf -conf-file agent6.conf agent6 


4. DB 口 ， 使 用 Avro 客 户 问 分别 同上 壕 两 个 代理 发 送 一 个 文 


$ flume-ng avro-client -H localhost -p 4000 -F /home/hadoop/message 
$ flume-ng avro-client -H localhost -p 2000 -F 
/home/hadoop/message2 


5. 检查 输出 路 径 ， 确 认输 出 文件 存在 于 该 目录 下 。 


ibere: 


原理 分 析 


首先 ， 我 们 定义 了 一 个 新 代理 ， 其 信 源 和 信和 窒 都 是 Avro 类 型 。 之 前 从 未 用 
过 Avro 信 入 ， 它 不 会 把 事件 写 入 本 地 文件 或 HDFS 文 件 ， 而 是 把 事件 发 给 远 


程 Avro 信 源 。 


我 们 启动 agent6 代理 之 后 ， 又 局 动 了 一 个 前 儿 季 用 过 的 代理 agent3 » H 
忆 一 下 ，agent3 使 用 Avro 信 源 和 名 e_rol 信 簿 。 我 们 将 第 一 个 代理 的 Avro 
信 答 指 癌 第 二 个 代理 的 Acro 信 源 的 主机 地 址 和 端口 ， 通 过 这 种 方式 构建 了 
一 个 数据 链 路 。 


在 agent6 和 agent3 都 运行 起 来 后 ， 我 们 使 用 Avro 窗户 端 同 每 个 代理 发 送 
一 个 文件 ， 并 确认 这 两 个 文件 都 存在 于 agent3 fi THTRAERJ HoK P ° 


能 达到 这 个 效果 并 非 只 是 技术 原因 使 然 。 更 重要 的 原因 在 于 ，Flume 文 持 用 


户 构建 非常 复杂 的 分 布 式 事件 收集 网 络 。 我 们 可 以 认为 不 同类 型 的 多 个 代 
理 可 以 把 事件 传 给 链条 中 的 下 一 个 代理 ， 它 们 就 像 是 事件 汇集 点 一 样 。 


10.13 ”实践 环节 : 把 事件 写 入 多 个 信和 宿 


E CREUSE 一 个 代理 可 以 向 多 个 信和 宿 写 入 数据 。 本 市 将 
SEHE e 


1. 把 下 列 内 容 保存 为 agent7 .conf 文件 。 


agent7.sources = netsource 
agent7.sinks - hdfssink filesink 
agent7.channels = memorychanneli memorychannel2 


agent7.sources.netsource.type - netcat 
agent7.sources.netsource.bind - localhost 
agent7.sources.netsource.port - 3000 
agent7.sources.netsource.interceptors = ts 


agent7.sources.netsource.interceptors.ts.type - 
org.apache.flume.interceptor.TimestampInterceptor$Builder 


agent7.sinks.hdfssink.type - hdfs 
agent7.sinks.hdfssink.hdfs.path = /fljume-%Y-%m-%d 
agent7.sinks.hdfssink.hdfs.filePrefix = log 
agent7.sinks.hdfssink.hdfs.rollInterval = 0 
agent7.sinks.hdfssink.hdfs.rollCount = 3 
agent7.sinks.hdfssink.hdfs.fileType = DataStream 


agent7.sinks.filesink.type = FILE ROLL 
agent7.sinks.filesink.sink.directory - /home/hadoop/flume/files 


agent7.sinks.filesink.sink.rollInterval = 0 


agent7.channels.memorychanneli.type = memory 
agent7.channels.memorychanneli.capacity - 1000 
agent7.channels.memorychanneli.transactionCapacity = 100 


agent7.channels.memorychannel2.type - memory 
agent7.channels.memorychannel2.capacity - 1000 


agent7.channels.memorychannel2.transactionCapacity 100 


agent7.sources.netsource.channels = memorychanneli memorychannel2 
agent7.sinks.hdfssink.channel = memorychanneli 
agent7.sinks.filesink.channel - memorychannel2 


agent7.sources.netsource.selector.type - replicating 


2. 启动 代理 agent7 ° 


$ flume-ng agent -conf conf -conf-file agent7.conf -name agent7 


3. 开启 一 个 远程 会 话 连 接 并 向 Flume 发 送 一 个 事件 。 


$ curl telnet://localhost:3000 


上 述 命 令 的 执行 结 采 如 下 所 示 。 


Replicating! 


检查 HDFS 上 的 输出 目录 及 文件 信 宿 的 内 容 。 


$ cat files/* 


$ hdfs fs -cat "/flume-*/*" 


上 上述 命 令 的 执行 结果 如 下 图 所 示 。 


原理 分 析 


我 们 创建 了 一 个 配置 文件 ， 该 文件 设置 了 一 个 Netcat 信 源 ， 以 及 两 个 信 答 ， 
分 别 是 file 信 和 宿 和 HDFS 信 和 宿 。 同 时 ， 还 设置 了 两 个 memory 信道 分 别 连 接 信 
源 和 两 个 信 宿 。 


接着 ， 我 们 设置 信 源 选择 器 的 类 型 为 replicating ， 也 就 是 说 ， 所 有 事件 
都 会 同时 发 送 给 上 述 两 个 信道 。 像 往常 一 样 启动 代理 并 向 信 源 发 送 一 个 事 
件 之 后 ， 我 们 确认 ， 该 事件 确实 被 同时 写 入 文件 系统 和 HDFS 信 答 。 
10.13.1 ”选择 器 的 类 型 


信 源 选择 器 有 两 种 工作 模式 ， 一 种 是 replicating 模 式 ， 男 一 种 是 multiplexing 
模式 。multiplexing 模式 的 信 源 选择 器 会 依据 事件 的 特定 头 部 字段 值 判断 问 
哪个 信道 发 送 事件 。 


10.13.2 ”信和 宿 故 障 处 理 


信箱 作为 数据 输出 端 ， 本 质 上 就 决定 了 它 可 能 随 着 时 间 推 移 会 逐渐 发 生 故 
障 。 束 像 其 他 输入 输出 设备 一 样 ， 信 和 窒 也 会 遇 到 写 入 速度 达到 上 限 、 存 储 
空间 已 用 尽 或 者 脱 机 离线 的 问题 。 


刚才 已 看 到 ，Flume 人 允许 信 源 使 用 选择 需 实 现 事件 复制 或 复 用 。 与 此 类 似 ， 
Flume 提 出 了 信 答 处 理 右 的 概念 。 


Flume 定 义 了 两 种 信 宿 处 理 器 ， 它 们 分 别 是 故障 恢复 (falover) 信 宿 处 理 
器 和 负载 均衡 (load balancing) 信 宿 处 理 器 。 


信和 窒 处 理 器 把 所 有 信和 窒 看 做 一 个 信和 宿 组 ， 它 会 依据 各 个 信和 宿 的 类 型 在 事件 
到 达 时 采取 不 同 的 措施 。 人 负载 均衡 信和 窒 处 理 紫 每 次 同 信 答 发 送 一 个 事件 ， 
它 采用 轮 询 (round-robin) 或 随机 算法 选择 下 次 使 用 的 信 宿 。 如 果 某 个 信 宿 
出 现 故 障 ， 信 和 窒 处 理 器 会 癌 男 一 个 信 答 发 送 相 同事 件 ， 但 发 生 故 障 的 信和 窒 
仍然 保留 在 信箱 池 中 。 


与 此 不 同 ， 故 障 恢 复 信 答 处 理 絮 把 所 有 信和 窒 视 为 一 个 优先 表 ， 只 有 高 优先 
级 信 答 发 生 故 障 后 ， 它 才 会 使 用 低 优 先 级 信 答 。 故 障 恢 复 信 答 处 理 右 会 从 
优先 表 中 删除 发 生 故 障 的 信 答 ， 在 经 过 一 段 冷 却 期 后 重 试 该 信箱 故障 是 否 
修复 ， 以 避免 后 续 的 大 量 故障 。 


一 展 身手 : 信和 宿 故 障 处 理 


创建 一 个 包含 3 个 HDFS 信 宿 的 Flume 配 置 文件 ， 每 个 信 宿 对 应 着 HDFS 上 
的 不 同位 置 。 使 用 负载 均衡 信和 宿 处 理 器 ， 确 认 事 件 被 平均 写 到 每 个 信 
往 ， 然 后 使 用 故障 恢复 信和 窒 处 理 器 ， 展 示 各 个 信和 窜 的 优先 级 。 


你 能 想 办 法 让 代理 选用 指定 信和 窒 代 奉 优 先 级 最 高 的 信和 窒 吗 ? 
10.13.3 ”使 用 简单 元 件 搭建 复杂 系统 


目前 ， 我 们 已 经 学 习 了 Flume 的 大 部 分 关键 功 能 。 以 前 曾 提 到 ，Flume 古 一 
个 框架 ， 我 们 应 当 认 真 考 虑 这 个 说 法 。Flume 的 部 署 方式 非常 灵活 ， 我 们 曾 
介绍 过 的 其 他 产品 都 无 法 与 之 相 比 。 


Flume 的 灵活 性 来 源 于 其 中 一 小 部 分 功能 。 通 过 信道 连接 信 源 和 信 种 ， 并 且 
支持 多 个 代理 和 多 个 信道 ， 这 就 是 Flume 灵 活性 的 一 种 具体 表现 。 这 些 功能 
看 上 去 没什么 了 不 起 ， 但 这 些 模块 却 可 以 用 来 构建 下 述 系 统 ， 该 系统 能 把 
多 个 网 页 服务 亏 群 的 日 志 汇 聚 到 一 个 Hadoop 集 群 。 
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一 个 汇聚 点 ， 负 责 执行 一 些 处 理 任 务 ， 并 在 原 事件 基础 上 附加 一 些 元 
数据 ， 把 这 些 记录 分 成 3 类 。 


第 一 级 集合 器 把 事件 发 给 能 够 访问 Hadoop 集 群 的 一 个 代理 。 集 合 器 提 
供 了 多 个 访问 点 ，1 类 事件 和 2 类 事件 被 发 给 第 一 级 聚合 器 ，3 类 事件 被 
发 给 第 二 级 聚合 器 。 


。 最 后 一 级 案 合 右 把 1 类 事件 和 2 类 事件 写 入 HDFS 的 不 同位 置 ， 同 时 2 类 
事件 也 被 写 入 到 本 地 文件 系统 。3 类 事件 直接 写 入 HBase ? 


简单 的 元 件 就 能 组 合 搭建 这 么 复杂 的 系统 ， 人 简直 太 神 奇 了 ! 
RAF: 使 用 简单 元 件 搭建 复杂 系统 


作为 一 个 练习 题 ， 考 虑 一 下 如 何 实现 上 述 系 统 ， 并 确定 流程 中 每 一 步 要 
用 到 怎样 的 Flume 配 置 。 


10.14 更 高 的 视角 


读者 需要 意识 到 ， 用 户 不 光 要 考虑 “简单 地 ”从 某 个 节点 癌 男 一 个 节点 传输 
数据 。 最 近 ， 由 于 某 些 原因 ， 数 据 的 生命 周期 管理 (data lifecycle 
management) 这 一 概念 被 广 为 使 用 。 接 下 来 ， 在 系统 出 现 数据 泛滥 的 情况 
之 前 ， 我 们 将 简要 介绍 一 些 需要 用 户 考虑 的 问题 。 


10.14.1 ”数据 的 生命 周期 


关于 数据 生命 周期 的 主要 问题 是 ， 数 据 要 存储 多 久 其 价值 才能 超过 存储 成 
本 。 永 久 存 储 数据 看 似 极 具 吸 引力 ， 但 随 着 时 间 推 移 ， 存 储 的 数据 量 越 来 
越 大 ， 存 储 成 本 也 会 急剧 上 升 。 这 些 成 本 不 单单 是 金钱 方面 的 成 本 。 随 着 
数据 量 的 增长 ， 许 多 系统 的 性 能 也 会 逐步 降低 。 


天 于 数据 存储 多 长 时 间 节 为 合适 ， 这 一 问题 的 答案 很 少 由 技术 因素 来 决 

定 。 相 反 ， 数 据 价 值 以 及 业务 成 本 才 坪 决定 性 因素 。 有 些 时 候 ， 用 户 很 快 
忠 会 发 现 数据 双 无 价值 。 在 男 一 些 情况 下 ， 出 于 竞争 或 法 律 原因 ， 业 务 无 
法 删除 这 些 数据 。 确 定数 据 在 业务 流程 中 所 处 地 位 ， 然 后 采取 相应 措施 。 


当然 ， 一 定 要 记 住 ， 保 留 或 删除 数据 并 不 是 一 个 非 此 即 彼 的 问题 。 用 户 还 
E PEDRE E EE 
云 子 人 PAREZAT 


10.14.2 ”集结 数据 
男 一 方面 ， 读 者 通常 需要 孝 虚 数据 是 如 何 送 入 MapReduce 这 类 数据 处 理 平台 


的 。 由 于 使 用 了 多 个 数据 产 ， 用 户 往往 和 希望 把 所 有 数据 都 放 在 同一 个 大 容 
量 存 储 系统 中 。 


正如 我 们 之 前 所 看 到 的 ，Flume 可 以 用 参数 表示 HDFS 上 的 数据 写 入 位 置 ， 
有 助 于 解决 这 个 问题 。 但 是 ， 最 好 把 这 些 数 据 写 入 位 置 视 为 临时 集结 区 ， 
Flume 会 完 把 数据 写 入 这 个 位 置 再 进行 处 理 。 在 数据 处 理 结束 之 后 ， 这 些 数 
据 会 被 移 到 长 期 目录 结构 。 


10.14.3 ”调度 


在 很 多 情况 下 ， 我 们 曾 提 到 过 ，Flume 可 能 需要 一 个 外 部 任务 执行 某 些 操 
作 。 如 前 所 述 ， 一 旦 文件 写 入 HDFS， 我 们 就 想 用 Flume 对 其 进行 处 理 ， 但 
是 该 任务 是 如 何 调度 执行 的 呢 ? 或 者 说 ， 我 们 如 何 进行 后 期 处 理 ， 如 何 对 
数据 进行 存档 或 删除 老 数 据 ， 甚 至 如 何 删除 源 主 机 上 的 日 志文 件 ? 


Linux 系 统 提供 的 logrotate 工具 可 以 调度 上 壕 部 分 任务 ， 例 如 源 主机 上 的 日 
志 删 除 工 作 ， 但 读者 需要 自行 创建 工具 实现 完成 其 他 任务 的 调度 工作 。 类 
似 cron 这 样 的 常用 工具 驶 能 完成 这 些 功 能 ， 但 随 着 系统 复杂 性 的 提升 ， 用 
户 需要 寻找 其 他 更 复杂 的 调度 系统 。 下 一 章 ， 我 们 将 会 简要 介绍 这 种 系统 
与 Hadoop 的 集成 。 


10.15 小结 


本 章 讨 论 了 如 何 获取 网 络 上 的 数据 ， 并 使 用 Hadoop 来 处 理 这 些 数据 。 我 们 
发 现 ， 实 际 上 这 是 一 个 很 常见 的 问题 。 尽 省 我 们 可 以 使 用 Hadoop 的 专属 工 
具 ， 如 Flume， 但 这 并 不 是 唯一 的 解决 方案 。 我 们 特别 对 可 能 写 入 Hadoop 的 
数据 进行 了 分 类 ， 通 常 把 它们 分 为 网 络 数 据 和 文件 数据 。 我 们 介绍 了 一 些 
使 用 命令 行 工 具 获 取 数 据 的 方法 。 尽 管 这 些 方法 确实 有 效 ， 但 它们 太 过 人 简 
单 ， 并 不 适合 更 复杂 的 情况 。 


我 们 把 Flume 视 为 一 个 可 灵活 使 用 的 框架 ， 它 可 以 定义 和 管理 数据 (尤其 是 
志文 件 】 路 笃 ，Flume 系 统 认为 数据 首先 达到 信 源 ， 经 过 信道 处 理 后 ， 视 
写 入 信 宿 。 


接着 ， 我 们 学 习 了 很 多 Flume 功 能 ， 包 括 如 何 使 用 不 同类 别 的 信 源 、 信 道 和 
信 答 。 从 中 可 以 学 到 ， 如 何 把 简单 的 功能 模块 组 合成 非常 复杂 的 系统 ， 最 
后 我 们 以 对 数据 管理 的 更 普遍 性 的 思考 结束 本 章 内 容 。 


全 书 主要 内 容 到 此 结束 。 下 一 章 我 们 将 简要 介绍 读者 可 能 感 兴趣 的 大 量 其 
他 项 目 ， 并 强调 了 一 些 加 入 Hadoop 开 发 者 社区 和 获得 帮助 的 方法 。 


第 11 章 ”展望 未 来 


正如 书 名 所 述 ， 本 书目 的 在 于 向 初学 者 深入 介绍 Hadoop 相 关 知 识 及 其 应 
用 。 读 者 经 常会 发 现 ，Hadoop 生 态 系 统 的 范围 远 远 不 止 这 些 核心 产品 。 
本 章 我 们 将 快速 浏览 一 些 有 趣 的 应 用 。 
本 章 包括 以 下 内 容 : 

。 忌 结 本 书 泗 盖 的 内 容 ; 
。 本 书 未 涉及 的 内 容 ; 
即将 发 生 的 Hadoop 变 革 ; 
其 他 版 本 的 Hadoop 软 件 安装 包 ; 
其 他 重要 的 Apache 项 目 ; 
其 他 程序 设计 方法 ; 
。 信 息 来 源 及 帮助 。 


11.1 ”全书 回顾 


因为 我 们 把 读 阁 群 设 定 为 Hadoop 初 学 者 ， 所 以 希望 初学 者 从 书 中 能 学 到 
Hadoop 的 核心 概念 和 工具 ， 为 今后 的 学 习 和 工作 打下 坚实 基础 。 而 且 ， 我 
们 设计 了 一 些 实 践 环 让， 有 助 于 读者 把 Hadoop 集 成 到 原 有 系统 架构 中 。 


尽管 起 初 Hadoop 只 十 一 个 独立 的 产品 ， 但 晕 不 客气 地 说 ， 近 年 来 以 Hadoop 
为 中 心 的 生态 系统 三 爆发 趋势 。 读 者 还 可 以 选用 其 他 版 本 的 软件 包 部 署 
Hadoop， 有 些 版 本 的 软件 包 提 供 了 定制 的 商用 扩展 功能 。 目 前 ， 以 Hadoop 
为 基础 的 相关 项 目 和 应 用 实在 是 太 多 了 ， 它 们 要 么 实现 了 茶 个 新 功能 ， 要 
么 以 其 他 方式 实现 了 现 有 功能 。 赶 快 使 用 Hadoop 吧 ， 这 真是 一 个 激动 人 心 
的 时 刻 ， 快 来 看 看 还 有 些 什 么 好 玩 的 东西 。 


提示 : 当然 ， 对 Hadoop 生 态 系 统 的 概述 由 作者 的 兴趣 和 偏好 决定 ， 可 能 
并 不 全 面 ， 而 且 涉及 的 相关 技术 和 应 用 在 写作 时 也 已 过 时 。 换 句 话 说， 
于 万 别 认 为 书 中 讲 到 的 东西 现在 全 都 能 用 ， 权 当 是 开胃 荣 好 了 。 


11.2 ”即将 到 来 的 Hadoop 变 革 


在 讨 ; 多 其 他 版 本 的 Hadoop 软 件 安 法 SOZA, Ri EREE Hadoop ZR 
的 一 些 变 革 。 我 们 曾 提 到 过 Hadoop 2.0 的 变化 ， 主要 十 使 用 新 的 
BackupNameNode 和 CheckpointNameNodej 及 务 提高 了 NameNode 的 可 用 性 
这 是 Hadoop 的 一 个 重大 变革 ， 因 为 它 能 增强 HDFS 的 健壮 隆 ， 极 大 地 提高 企 
业 信 用 ， 并 能 实现 集群 操作 的 流水 化 。 再 怎么 奔 大 NameNode ETR 
的 影响 都 不 为 过 ， 儿 年 之 后 ， 人 们 甚至 会 想 ， 没 发 明 NameNode HA 技术 之 
前 ，Hadoop 是 如 何 运 作 的 。 


发 生 这 些 变 音 的 同时 ， MapReduce 也 个 是 一 成 不 变 的 。 实际 上 ， 我 们 介绍 的 
这 些 Hadoop 变 单 不 可 能 读 来 太 多 的 直接 影响 ， 却 能 融 来 根本 上 的 改变 。 


最 初 ， 开 发 者 把 改进 后 的 Hadoop 称 为 MapReduce 2.0 或 MRV2 。 但 是 ， 现 
在 我 们 认为 YARN (Yet Another Resource Negotiator) 这 个 名 称 更 为 贴切 ， 
因为 主要 变化 发 生 在 Hadoop 平 台 而 非 MapReduce 。 YARN 的 目标 是 在 
Hadoop 基 础 上 构建 一 个 集群 资源 分 配 平台 ， 可 以 为 某 些 应 用 分 配 集群 资 
源 ， 而 MapReduce 只 是 这 些 应 用 中 的 一 种 。 


目前 ，JobTracker 负 责 两 项 不 同 的 任务 : 管理 某 一 MapReduce 作 业 的 进度 

(也 要 确定 任意 时 刻 处 于 空闲 状态 的 集群 资源 ) ， 以 及 在 作业 的 不 同 阶段 
分 配 资源 。YARN 把 这 些 任务 分 给 了 几 个 独立 的 组 件 。 一 个 全 局 的 
ResourceManager 负 责 集群 资源 管理 ， EOS 台 主 机 上 的 NodeManager 实 
现 该 功能 ;一 个 独立 的 ApplicationManager ， 它 与 ResourceManager 通 信 以 
获取 作业 所 需 资源 。 


YARN 中 的 MapReduce 接 口 保持 个 变 ， 所 以 从 客户 的 角度 来 看 ， 所 有 现 有 代 
码 都 能 在 新 平台 上 运行 。 但 是 由 于 新 开发 了 ApplicationManager， 我 们 更 倾 
[3] -把 Hadoop 视 为 支持 多 种 处 理 模 型 的 通用 任务 处 理 平台 。 早 期 已 迁移 到 
YARN 的 处 理 模 型 包括 基于 流 的 处 理 模型 ， 以 及 MPI (Message Passing 
Interface， 消 息 传 递 接 口 ) 的 一 个 端口 ， 它 在 科学 计算 中 得 到 了 广泛 使 用 。 


11.3 其 他 版 本 的 Hadoop 软 件 包 


回顾 第 2 章 内 容 ， 我 们 从 Hadoop 主 页 下 载 其 安装 包 。 但 是 这 并 非 获得 
Hadoop 的 唯一 方式 ， 读 者 可 能 对 此 感到 奇怪 。 更 让 人 奇怪 的 是 ， 大 多 数 生 
产 环境 中 使 用 的 Hadoop 并 不 是 Apache 提 供 的 版 本 。 


为 什么 会 有 其 他 版 本 


Hadoop 是 一 款 开源 软件 。 任 何 遵守 Apache 软 件 许可 证 的 人 都 可 以 发 布 自己 
开发 的 Hadoop 版 本 。 人 们 主要 出 于 两 个 卷 虑 来 创建 其 他 Hadoop 版 本 。 


1. 打包 


有 些 人 开发 这 些 安装 包 是 为 了 捆绑 其 他 软件 ， 例 如 Hive、HBase、Pig， 还 
有 许多 其 他 项 目 。 大 多 数 项 目的 安 狠 方法 兰 异 很 大 《HBase 是 个 例外 ， 事 实 
证 明 它 的 手动 安装 更 为 困难 ) ， 一 些 细微 的 版 本 不 兼容 问题 只 有 在 系统 处 
才 会 显现 。 把 这 些 软件 打包 发 布 可 以 提供 一 组 兼容 的 软 


2. 免费 的 和 商用 的 扩展 


作为 一 个 开源 项 目 ，Hadoop 软 件 包 的 发 布 相对 比较 目 由 ， 开 发 人 员 可 以 目 
mos ME 展 增 强 Hadoop， 使 其 既 可 以 成 为 免费 开源 产品 也 可 以 成 为 商 
DAT 


这 是 一 个 有 和 争议 的 问题 ， 一 些 开 源 文 持 者 不 希望 把 任何 成 功 的 开源 产品 进 
行商 业 化 运作 。 在 他 们 看 来 ， 商 业 公 司 只 古 在 抽取 开源 社区 的 劳动 果实， 

无 须 目 主 创建 这 些 软 件 即 可 不 劳 而 获 。 男 一 些 人 认为 这 对 Apache 许 可 很 有 
好 处 ， 基 础 产品 永远 是 免费 的 ， 个 人 用 户 和 商业 公司 可 以 选择 站 人 否 使 用 商 
用 扩展 。 我 们 不 对 这 些 观点 进行 任何 评论 ， 但 我 们 时 刻 面 对 着 这 个 争议 。 


理解 了 不 同 版 本 软件 包 的 由 来 之 后 ， 接 下 来 我 们 将 选取 几 个 较 受 欢迎 的 软 
件 版 本 进行 介绍 。 


。 Cloudera 开 发 的 Hadoop 版 本 


Cloudera 开 发 的 Hadoop 安 装 包 是 目前 使 用 最 广泛 的 Hadoop 安 效 包 ， 以 后 简 
写 为 CDH (Cloudera Distribution for Hadoop) 。 回 忆 一 下 ，Sqoop 即 是 由 
Cloudera 公 司 开 发 的 ， 然 后 将 其 捐献 给 了 开源 团体 ，Doug Cutting 现 在 为 这 
家 公司 效力 。 


读者 可 通过 http://www.cloudera.com/hadoop 了 解 Cloudera 版 Hadoop， 同 时 该 
页 面 还 包含 大 量 Apache 产 品 ， 如 Hive、Pig、HBase、 Sqoop 和 Flume, 还 有 其 
他 一 些 不 太 出 名 的 产品 ， 如 Mahout 和 Whir。 我 们 稍 后 会 介绍 这 些 产 品 。 


CDH 提 供 了 多 种 格式 的 安 闭 包 供用 户 下 载 ， 并 以 即 装 即 用 的 方式 部 署 软 
件 。 例 如 ， 基 本 的 Hadoop 产 品 被 分 成 多 个 不 同 的 安装 包 ， 分 别 对 应 着 


NameNode、TaskTracker 等 Hadoop 组 件 ， 每 个 组 件 都 集成 了 标准 的 Linux 基 
础 服务 。 


CDH 有 是 第 一 个 被 广泛 应 用 的 可 选 安 装 包 ， 它 集成 了 很 多 实用 软件 ， 用 户 不 
仅 可 免费 使 用 ， 而 且 质量 可 靠 ， 因 此 很 多 用 户 都 选择 了 这 个 版 本 的 
Hadoop ? 


另外 ，Cloudera 也 提供 了 其 他 商业 产品 ， 如 Hadoop 管 理工 具 、Hadoop 培 
训 、 技 术 支 持 和 咨询 服务 。 详 细 内 容 参 见 公 司 主页 的 介绍 。 


。 Hortonworks 推 出 的 数据 平台 


2011 年 ，Yahoo 公 司 内 部 负责 大 量 Hadoop 开 发 工作 的 部 门 被 独立 出 来 ， 成 立 
了 一 个 名 为 Hortonworks 的 新 公司 。 他 们 也 推出 了 自行 研发 的 预 集成 的 
Hadoop 安 装 包 ， 取 名 为 Hortonworks Data Platform (人 简称 HDP) ， 网 址 为 
http://hortonworks.com/products/hortonworksdataplatform/ ° 


HDP 的 概念 与 CDH 相 似 ， 但 这 两 个 产品 的 侧重 点 有 所 不 同 。HDP， 甚 至 包 
括 其 管理 工具 在 内 ， 基 本 上 有 是 一 个 完全 开源 的 产品 。HDP 还 提供 对 Talend 
Open Studio 的 支持 ，Hortonworks 公 司 把 它 定 位 成 一 个 关键 的 集成 平台 。 
Hortonworks 公 司 不 提供 任何 商用 软件 ， 它 主要 通过 提供 专业 服务 和 技术 文 
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Cloudera 和 Hortonworks 都 是 拥有 重要 工程 技术 的 风险 企业 ， 很 多 对 Hadoop 
有 杰出 贡献 的 开发 人 员 都 党 雇 于 这 两 个 公司 。 但 是 ,它们 的 技术 基础 都 是 
这 些 相同 的 Apache 项 目 ， 区 别 在 于 软件 集成 的 方式 不 同 ， 使 用 的 软件 版 本 
不 同 ， 以 及 各 公司 提供 的 增值 服务 不 同 。 


e MapR 


MapR Technologies 公司 提供 了 一 种 全 新 的 安装 包 ， 通 常人 们 把 这 家 公司 及 
其 提供 的 软件 都 简称 为 MapR 。 读 者 可 通过 http://www.mapr.com 下 载 
MapR， 它 虽然 同样 以 Hadoop 为 基础 ， 但 进行 了 一 些 改进 。 


MapR 主 要 关注 软件 性 能 和 可 用 性 。 我 们 曾 在 第 7 章 讲 过 ，Hadoop 
NameNode 和 JobTracker 是 Hadoop 核 心 组 件 的 薄弱 环节 ， 而 MapR 率 先 实现 了 
Hadoop NameNode 和 JobTracker 的 高 可 用 性 解决 方案 。MapR 还 集成 了 NFS 文 
件 系 统 ， 这 样 就 可 以 更 简便 地 处 理 现 有 数据 。MapR 用 完全 兼容 POSIX 的 文 
件 系 统 代 蔡 了 HDFS， 便 于 远程 挂 接 。 


MapR 同 时 提供 了 免费 版 和 企业 版 软件 ， 但 免费 产品 只 能 使 用 其 部 分 扩展 功 
pm "E 户 购买 了 企业 版 软件 ， 公 司 会 提供 相应 的 技术 文 持 、 培 训 和 咨 
WJI ° 


e [BM InfoSphere Big Insights 


本 太 讲 的 最 后 一 个 产品 来 自 IBM 公 司 。 读 者 可 通过 http://www- 
01.ibm.com/software/data/infosphere/biginsights/ 下 载 到 IBM InfoSphere Big 
Insights 的 安装 包 。 和 MapR 一 样 ， 它 也 对 开源 Hadoop 的 核心 组 件 进 行 了 商 
业 改 进 和 扩展 。 


IBM 分 别提 供 了 Big Insights 的 免费 版 和 企业 版 。 人 免费 版 对 Apache Hadoop)” 
品 进行 了 改进 ， 痢 增 了 一 些 免费 的 管理 工具 和 部 姥 工 具 ， 同 时 还 集成 了 一 
些 其 他 IBM 软 件 。 


企业 版 与 免费 版 的 差别 较 大 ， 它 不 仅仅 建立 在 Hadoop 基 础 之 上 上， 实际 上 ， 
它 还 可 以 与 CDH 或 HDP 共 同 使 用 。 企 业 版 提供 了 一 系列 的 数据 可 视 化 、 商 
业 分 析 和 处 理工 具 。 它 还 深度 集成 了 IBM 的 其 他 产品 ， 如 InfoSphere 
Streams、DB2 和 GPFS ° 


3. 如 何 选 择 合适 的 产品 


可 以 看 出 ， 用 户 的 选择 范围 很 大 ， 从 方便 安装 的 完全 开源 的 集成 产品 ， 到 
全 部 定制 的 集成 分 析 工 具 。 每 种 产品 都 各 有 千秋 ， 用 户 在 选择 使 用 哪 款 产 
品 时 要 仔细 考虑 具体 需求 。 因 为 上 述 产 品 都 提供 了 基本 版 本 的 免费 下 载 ， 
因此 用 户 可 以 先 试用 一 下 ， 然 后 再 选择 合适 的 产品 。 


11.4 其 他 Apache 项 目 


无 论 用 户 用 的 是 集成 产品 ， 还 是 基本 的 Apache Hadoop， 都 会 经 常 遇 到 需要 
使 用 其 他 相关 的 Apache 项 目的 情况 。 本 书 已 经 介绍 了 Hive、Sqoop 和 
Flume， 接 下 来 将 重点 介绍 其 他 项 目 。 


需要 注意 的 是 ， 本 节 内 容重 在 突出 一 些 重点 项 目 〈 根 据 我 的 理解 ) ， 同 时 
。 读 者 的 思路 要 开阔 一 些 ， 任 何 时 候 都 有 新 
项 目 发 布 。 


11.4.1 HBase 


HBase 也 许 是 最 受 欢 迎 但 本 书 疝 未 提 到 的 与 Hadoop 相 关 的 Apache 项 目 ， 其 主 
页 地 址 为 http:/hbase.apache.org 。 它 是 一 球 以 HDFS 为 基础 的 非 天 系数 据 
库 ， 其 理论 基础 是 Google 在 一 篇 学 术 论 文中 提 到 的 BigTable 数 据 存储 模型 。 


鉴于 MapReduce 和 Hive 任 务 都 侧重 于 成 批 地 访问 数据 ，HBase 正 好 相反 ， 它 
力求 低 延 迟 的 访问 数据 。 因 此 ， 与 之 前 提 到 的 其 他 技术 不 同 ，HBase 能 够 直 
接 文 持 面 向 用 户 的 服务 。 


HBase 并 没有 像 Hive 和 其 他 RDBMS 那 样 采用 关系 型 模型 ， 而 是 采用 了 面向 
列 的 非 结构 化 键 值 模 型 。 用 户 可 以 在 HBase 运 行 时 新 增 数 据 列 ， 并 依据 数据 
值 将 其 插入 HBase 中 的 合适 位 置 。 因 为 HBase 实 现 了 从 原始 键 到 目标 列 的 高 
效 映 射 ， 所 以 每 次 数据 查找 操作 的 执行 速度 都 很 快 。HBase 把 时 间 惟 当做 数 
据 的 另 一 个 属性 ， 因 些 可 以 直接 根据 时 间 点 检索 数据 。 


这 种 数据 模型 的 功能 非 和 强大， 但 并 不 适用 于 所 有 情况 ， 束 像 关系 模型 也 
无 法 做 到 普遍 适用 一 样 。 但 如 果 读 者 需要 低 延 迟 地 访问 存储 在 Hadoop 里 的 
大 规模 结构 化 数据 ，HBase 绝 对 是 最 好 的 选择 之 一 。 


11.4.2 Oozie 


我 们 曾 多 次 讲 过 ，Hadoop 集 群 并 非 存 在 于 真空 中 ， 而 要 与 其 他 系统 集成 以 
扩展 工作 流 的 概念 。Oozie 是 一 个 针对 Hadoop 开 发 的 工作 流 调 度 工具 ， 其 主 
页 地 址 为 http://oozie.apache.org ° 


Oozie 以 最 简单 的 模式 提供 了 执行 MapReduce 作 业 的 调度 机 制 ， 其 调度 原则 
要 么 是 一 定 的 时 间 段 (例如 ， 每 小 时 执行 一 次 ) ， 要 么 是 数据 可 用 性 ( 例 
如 ， 当 新 数据 到 达 时 执行 ) 。Oozie 还 可 以 指定 多 级 工作 流 ， 它 们 可 以 描述 
一 个 完整 的 端 到 端 流程 。 


除了 直接 调度 MapReduce 作 业 的 运行 之 外 ，Oozie 也 可 以 调度 Hive 或 Pig 命 令 
的 运行 ， 甚 至 是 完全 和 Hadoop 无 关 的 任务 (如 发 邮件 、 执 行 shell 脚 本 或 在 
远程 机 上 运行 命令 ) 。 


用 户 可 通过 多 种 方式 构建 工作 流 ， 一 种 通用 的 方法 就 是 使 用 Pentaho Kettle 
(http://kettle.pentaho.com ) 和 Spring Batch 
(http://static.springsource.org/spring-batch ) 这 样 的 Extract Transform Load 
(ETL) 工具 。 这 些 工具 中 集成 了 部 分 Hadoop， 但 传统 的 专用 的 工作 流 引 
擎 可 能 并 不 包含 这 些 集成 。 如 有 果 读 者 要 构建 一 个 Hadoop 交 互 工作 流 ， 手 边 
却 没有 一 球 满 意 的 集成 了 Hadoop 的 工作 流 工具 ， 不 妨 考 虑 一 下 Oozie 。 


11.4.3 Whir 


如 果 读 者 想 借 助 Amazon AWS 这 样 的 云 服务 部 署 Hadoop ， 还 不 如 直接 使 用 
更 高 级 的 ElasticMapReduce 服 务 ， 而 不 必 再 基于 EC2 搭 建 目 有 集群 。 尽 管 
Amazon 提 供 了 帮助 脚本 ， 但 在 云 基础 设施 上 部 署 Hadoop 依 然 非 常 复杂 。 这 
就 是 开发 Whir 的 初衷 ， 其 主页 地 址 为 http://whir.apache.org ° 


Whir 并 非 专 用 于 解决 Hadoop 的 部 署 问题 ， 它 是 一 个 通用 的 云 服 务 ， 并 不 限 
定 具 体 的 应 用 程序 ，Hadoop 只 是 其 中 一 个 例子 。Whir 提 供 了 一 种 程序 化 的 
方法 在 云 基础 设施 上 部 署 Hadoop， 它 会 解决 所 有 底层 服务 的 问题 。 而 且 ， 
它 与 云 服务 提供 商 无 关 ， 因 此 ， 假 如 读者 在 Amazon 提 供 的 EC2 主 机 上 完成 
了 Hadoop 的 配置 ， 那 就 可 以 用 相同 代码 在 其 他 云 上 (如 Rackspace 或 
Eucalyptus) 完成 同样 的 设置 。 这 样 就 会 避免 在 不 同 云 服 务 平台 上 部 署 应 用 
程序 的 很 多 问题 。 


Whir 做 的 还 远 远 不 够 。 现 如 今 它 文 持 的 服务 种 类 有 限 ， 并 且 只 文 持 Amazon 
提供 的 AWS。 然 而 ， 如 有 果 读 者 想 更 顺利 地 完成 云 问 部 署 ， 有 必要 了 解 一 下 
Whir ? 


11.4.4 Mahout 


Eu HAE, V DCRSECETRISRUSININZ FH REF. ° Tu Apache Mahoutll!l 
是 基于 Hadoop 和 MapReduce 创 建 的 机 器 学 习 算 法 库 ， 其 主页 地 址 为 
http://mahout. apache.org ° 


Hadoop 的 数据 处 理 模型 非常 适合 于 机 器 学 习 应 用 程序 ， 其 目标 即 是 从 大 规 
模 数据 集 凝练 数据 价值 和 数据 意义 。 Mahout 实 现 了 很 多 常用 的 机 器 学 习 技 
术 ， 例 如 聚 类 和 推 戎 系统 。 


如 有 条 读者 要 从 大 量 数据 中 找 出 关键 的 数据 模式 、 数 据 天 系 ， 或 仅仅 是 像 大 
海 捞 针 一 样 找 出 某 个 目标 值 ，Mahout 也 许 能 够 发 挥 作用 。 


11.4.5 MRUnit 


我 们 即将 介绍 的 最 后 一 个 Apache Hadoop 项 目 再 次 突出 了 围绕 Hadoop 开 发 的 
应 用 程序 种 类 之 多 。 在 很 大 程度 上 ， 如 果 MapReduce 作 业经 常 由 于 隐 沽 的 
bug 而 失败 ， 那 么 读者 用 到 了 多 少 新 技术 或 用 了 哪个 版 本 的 安装 包 已 变 得 毫 
无 意义 。 最 近 推 出 的 MRUnit 可 帮助 解决 这 个 问题 ， 其 主页 地 址 为 
http://mrunit.apache.org ° 


开发 MapReduce 作 业 有 一 定 的 困难 ， 尤 其 是 在 早期 阶段 ， 但 对 它们 进行 测试 
和 调试 一 直 都 令 人 非常 头疼 。 顾 名 思 义 ，MRUnit 采 用 了 JUnit 和 DBUnit 文 两 
种 单元 测试 模型 ， 并 提供 了 一 个 有 助 于 编写 和 执行 测试 代码 的 框架 ， 可 帮 
助 用 户 提高 代码 质量 。 构 建 测试 集 、 自 动 化 测试 集成 工具 、 编 译 工 具 以 及 
所 有 软件 工程 的 最 好 做 法 ，MRUnit 提 供 了 读者 编写 非 MapReduce 代 码 时 做 
梦 都 想 拥 有 的 这 些 功 能 。 


如 果 读 者 曾 编 写 过 任何 MapReduce 作 业 ， 就 会 觉得 MRUnit 很 有 意思 。 依 我 
个 人 浅见 ， 它 是 一 个 非常 重要 的 项 目 ， 值 得 读者 深入 人 研究。 


11.5 ”其 他 程序 设计 模式 


人 们 不 仅 开 发 了 扩展 Hadoop 功 能 的 应 用 程序 ， 同 时 也 出 现 了 其 他 编程 工 
具 ， 它 们 遵循 全 新 的 编程 范式 。 


11.5.1 Pig 


我 们 在 e 提 到 过 Pig (http//pig.apache.org ) ， 所 以 本 节 不 再 多 讲 其 他 内 
容 。 一 定 要 记 住 ， 与 编写 原 系 始 MapReduce 代 码 或 HiveQL 脚 本 相 比 ， 定 义 
Hadoop 处 理 过 程 的 数据 流 更 为 直观 且 更 适合 。Pig 与 Hive 的 主要 区 别 是 : Pig 

是 一 个 作 令 语言 ， 尼 定 义 本 数据 处 理 过 程 的 执行 万 式 ,， 而 Hive 更 侧重 于 
描述 ， 它 定义 了 目标 结果 却 不 管 如 何 实现 这 个 目标 。 


d 


11.5.2 Cascading 


Cascading 并 不 是 一 个 Apache 项 目 ， 但 它 也 是 开源 的 ， 其 主页 地 址 为 
http://www.cascading.org 。Hive 和 Pig 使 用 不 同 语言 描述 数据 处 理 过 程 ， 而 
Cascading 则 提供 了 一 系列 更 高 层 的 抽象 。 


它 无 需 考 虑 多 个 MapReduce 作 业 的 处 理 方式 以 及 如 何 与 共享 数 

据 ， 而 是 采用 了 数据 流 的 数据 模型 。 数 据 流 中 用 到 了 管道 和 多 个 连接 器 
分 接头 和 类 似 构 件 。 这 些 构 件 是 以 编程 方式 构建 的 (原始 的 核心 API 使 用 
Java 语 言 ， 但 也 用 许多 其 他 语言 重 写 了 这 些 API) ，Cascading 负 责 管理 工作 
流 在 集群 上 的 翻译 、 调 度 和 执行 。 


如 果 读 者 想 使 用 更 高 级 的 d s 口 ， 而 Pig 和 Hive 的 陈述 性 风格 又 不 
太 合适 ，Cascading 的 编程 模型 可 能 是 读者 村 想 要 的 。 


11.6 ” AWS 资源 


许多 Hadoop 技 术 可 以 部 署 在 AWS 上 ， 作 为 目 管理 集群 的 一 部 分 功能 。 
Amazon 提 供 了 对 弹性 MapReduce 的 文 择 ， 它 把 Hadoop 视 为 一 个 托管 服务 。 
与 此 类 似 ， 还 有 一 些 其 他 服务 也 可 以 实现 这 种 托管 。 


11.6.1 在 EMR 上 使 用 HBase 


事实 上 ， 这 并 不 是 一 个 独特 的 服务 ， 但 是 束 像 EMR 本 吴 吏 文 持 Hive 和 Pig 服 
务 一 样 ， 它 也 可 以 对 HBase 集 群 提供 直接 支持 。 这 是 一 个 相对 较 新 的 功能 ， 
还 需要 观察 一 下 它 在 实际 工作 中 的 效果 如 何 。 但 根据 以 往 经 验 ，HBase 对 网 
络 质量 和 系统 负载 较为 敏感 。 


11.6.2 SimpleDB 


Amazon 推 出 的 SimpleDB 服 务 (http://aws.amazon.com/simpledb ) 提供 了 类 
似 HBase 的 数据 模型 。 事 实 上 ， 它 并 非 建 立 在 Hadoop 基 础 之 上 ， 但 它 和 
dynamodb 服 务 都 提供 了 托管 服务 ， 如 果 读 者 对 类 似 HBase 的 数据 模型 感 兴 
趣 的 话 ， 可 以 考虑 使 用 它们 。 该 服务 早 在 几 年 前 就 已 经 推出 ， 实 践 表明 ， 
它 对 使 用 案例 的 理解 已 经 非常 成 熟 。 


但 是 ，SimpleDB 也 存在 一 些 缺 陷 ， 尤 其 是 对 表 的 大 小 有 限制 ， 并 且 需 要 手 

工 对 大 数据 集 进行 分 区 。 但 如 果 读者 只 需 使 用 HBase 类 型 系统 存储 小 规模 数 
据 ， 这 将 是 一 个 不 错 的 选择 。 并 且 该 系统 易于 配置 ， 非 常 适 合用 于 处 理 基 

于 列 的 数据 模型 。 


11.6.5 DynamoDB 


近期 ，AWS 推 出 了 一 种 名 为 DynamoDB 的 新 服务 , 其 主页 地 址 为 
http://aws.amazon.com/dynamodb 。 虽 然 DynamoDB 和 SimpleDB、HBase 的 数 
据 模 型 非常 相似 ， 但 它 针 对 的 是 其 他 应 用 类 型 。 另 一 个 区 别 是 ，SimpleDB 
提供 了 非常 丰富 的 查询 API， 但 受 限于 数据 大 小 ， 而 DynamoDB 提 供 的 API 
数量 有 限 却 几乎 能 够 支持 任意 规模 的 数据 。 


DynamoDB 的 定价 模式 很 有 意思 ， 用 户 不 是 按照 使 用 的 服务 器 数量 支付 费 
用 ， 而 是 由 用 户 申请 的 读 写 容量 以 及 DynamoDB 为 满足 这 个 需求 而 提供 的 资 
源 来 计 费 。 这 种 纯粹 的 服务 模型 很 有 意思 ， 用 户 完 全 不 了 解 系统 是 如 何 实 
现 预 期 性 能 的 。 如 采 读 者 要 存储 的 数据 规模 远 远 超出 了 SimpleDB 的 能 力 范 
图 ， 不 妨 考 虑 下 DynamoDB， 但 也 要 好 好 考虑 其 定价 模型 ， 因 为 申请 太 多 的 
空间 会 导致 用 户 成 本 急剧 上 升 。 


11.7 ”获取 信息 的 渠道 


无 论 这 些 新 技术 和 新 工具 功能 如 何 强 大 ， 用 户 可 不 光 只 需要 这 些 新 技术 和 
新 工具 。 某 些 时 候 ， 来 目 有 经 粕 人 员 的 小 小 帮助 会 解决 用 户 的 困惑 。 读 者 
不 必 担 心 这 方面 的 问题 ，Hadoop 开 发 团队 在 很 多 领域 的 能 力 都 很 强 。 


11.7.1 FRE 


读者 有 时 容易 忽视 这 个 现象 : Hadoop 和 其 他 Apache 项 目 都 是 完全 开 谣 的 。 
这 些 项 目的 源 代 码 从 根本 上 解释 了 系统 的 工作 原理 。 熟 悉 源 代码 并 且 跟 跌 
某 些 功能 的 实现 方式 可 以 为 用 户 提供 巨大 的 信息 量 ， 这 在 用 户 遇 到 意外 情 
况 的 时 候 能 够 提供 巨大 的 帮助 。 


11.7.2 ”邮件 列表 和 论坛 


几乎 前 几 节 列 出 的 所 有 项 目 和 服务 都 建立 了 自己 的 邮件 列表 和 (或 ) 论 
坛 ， 读 者 可 在 相应 项 目 主 页 查看 特定 链接 。 如 果 读 者 使 用 的 是 AWS， 请 通 
过 https://forums.aws.amazon.com 访问 AWS 开 发 者 论坛 。 


煞 必 要 仔细 阅读 相关 的 用 户 指南 ， 并 了 和 解 预期 的 行为 。 这些 指南 都 能 够 提 
供 大 量 信 息 ， 包 括 开 发 者 经 常 访问 的 某 些 项 目的 邮件 列表 和 论坛 。 用 户 可 
以 在 Hadoop 邮 件 列 表 找 到 Hadoop 核 心 组 件 的 开发 人 员 ， 在 Hive 邮 件 列 表 找 
到 Hive 开 发 人 员 , 在 EMR 论 坛 找 到 EMR 开 发 人 员 ， 等 等 。 


11.7.3 ”LinkedIn 群 组 


在 LinkedIn 社 交 网 络 上 存在 很 多 Hadoop 和 相关 群 组 。 读 者 可 以 搜索 自己 感 兴 
趣 的 特定 领域 ， 但 更 好 的 办 法 是 访问 通用 Hadoop 用 户 组 ， 其 网 址 为 
http://www.linkedin.com/groups/Hadoop-Users-988957 ° 


11.7.4 Hadoop 用 户 群 


如 果 读 者 想 获 得 更 多 面对面 的 交流 ， 可 以 参加 本 领域 的 HUG (Hadoop User 
Group，Hadoop 用 户 群 ) ， 大 部 分 这 些 用 户 群 都 列 在 了 
http://wiki.apache.org/hadoop/HadoopUserGroups 网 页 上 。 这 些 Hadoop 用 户 群 
通常 会 安排 一 些 非 正规 聚会 ， 可 以 一 边 听 到 高 质量 的 演讲 ， 一 边 手 拿 披 防 
和 饮料 与 志趣 相投 的 人 讨论 技术 。 


如 果 读 者 住 的 地 方 附 近 没有 HUG 的 话 ， 可 以 考虑 组 织 一 个 ! 


11.7.5 WX 


虽然 Hadoop 是 一 门 相对 较 新 的 技术 ， 但 该 领域 已 经 举办 了 一 坚 重 要 的 会 议 
活动 ， 会 议 主题 包括 开源 项 目 、 学 术 研 究 和 商业 应 用 。Hadoop Summit 会 
议 的 影响 力 非常 大 ， 关 于 它 和 男 外 会 议 的 介绍 参见 
http://wiki.apache.org/hadoop/Conferences ° 


11.8 ”小结 


本 草 快 速 介 绍 了 更 广泛 的 Hadoop 生 态 系统 。 我 们 依次 介绍 了 Hadoop 即 将 发 
生 的 变化 ， 尤 其 是 HDFS 高 可 用 性 和 YARN， 以 及 存在 其 他 版 本 Hadoop 安 装 
包 的 原因 ， 并 列举 了 一 些 较 受 欢迎 的 版 本 ， 还 有 其 他 扩展 Hadoop 功 能 或 为 
其 提供 支持 的 Apache 项 目 。 


我 们 还 介绍 了 编写 或 创建 Hadoop 作 业 的 其 他 方法 ， 如 何 获取 相关 信息 ， 以 
及 怎样 与 其 他 Hadoop 爱 好 者 取得 联系 。 


现在 尽情 有 圣 受 使 用 Hadoop 的 乐趣 ， 并 创建 出 让 人 惊叹 的 杰作 吧 ! 


随 笃 测验 管 案 


第 3 章 ”理解 MapReduce 


随 堂 测验 : 键 值 对 


(2) 不 能 使 用 Reducer C 作 为 combiner。 如 果 使 用 Reducer C 作 为 combiner，combiner 会 向 最 
终 的 reducer 输 出 一 系列 平均 值 ， 而 reducer 却 不 道 这些 平 均值 是 通过 多 少 个 项 目的 炎 
计算 出 来 的 ， 意 味 着 它 无 法 计算 整体 平均 值 。 单 纯 从 选取 每 个 键 的 最 大 值 和 最 
度 来 讲 ，Reducer D 是 可 以 用 于 combiner 操 作 的 : 想 要 计算 每 个 键 的 最 


直 之 间 的 方差 ， 这 就 行 不 通 了 。 如 果 某 人 ME 6 较为 集 的 话 ， 
就 比较 小 。 类 似 地 ， 如 果 最 小 值 Jat 较为 集中 的 话 ， 也 比较 小 。 这 些 字 区 
间 内 存在 少数 几 个 孤立 值 ， 因 此 最 终 reducer 还 是 无 bb 想 要 的 结果 


第 7 章 ”系统 运行 与 维护 


ER 集群 配置 


& 管 可 以 依据 通用 规则 5 ; 好 想 想 集群 会 用 于 处 理 哪 和 
a De Z 


恨 多 情况 下 ， 读 者 会 发 现 由 数 百 成 的 大 型 Hadoop 集 第 
> 就 为 集群 带 来 了 新 的 失败 风险 ， 这 让 他 风险 的 

更 强 才 余 技术 解决 存储 失效 问题 。 这 些 硬 盘 阵 列 可 以 达 
较 大 。 让 Hadoop 上 行 解决 失效 问题 ， 起 其 在 同样 数量 的 而 
， 可 以 达到 更 高 的 性 能 


和 置 。 尽 管 这 种 配置 方案 提供 了 足够 的 存储 空 
TJ HERBA ick 我 们 可 以 选择 更 优 的 方案 * 随 着 
de » 而 MapReduce 作 业 复 杂 性 的 提升 ， 


它们 提供 了 过 剩 的 存储 空间 可 

"方案 B 的 硬盘 IO 速率 较 高 ， 而 方案 
预测 ， 我 们 假设 每 个 任务 都 对 CPU 

方案 B 的 IO 性 能 稍 高 一 些 ， 但 假如 处 理 器 利用 率 达 到 了 WE PRU 到 

有 效 利用 。 因 此 ， iE MER :好 的 主机 似乎 -更 适合 用 在 了 

配置 din T f£ 需求 


际 需要 的 硬件 呢 该 方案 的 原因 - "我们 为何 要 多 花 钱 购买 
pu ced 过 实际 需 É 


